Full Publications

(* equal contributions, # the corresponding author.)

Preprint TurboDiffusion: Accelerating Video Diffusion Models by 100–200 Times
Jintao Zhang*, Kaiwen Zheng*, Kai Jiang*, Haoxu Wang*, Ion Stoica, Joseph E. Gonzalez, Jianfei Chen, Jun Zhu
| paper | |

Preprint A Survey of Efficient Attention Methods: Hardware-efficient, Sparse, Compact, and Linear Attention
Jintao Zhang, Rundong Su, Chunyu Liu, Jia Wei, Ziteng Wang, Haoxu Wang, Pengle Zhang, et al.
| paper | |

ICLR SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse–Linear Attention
Jintao Zhang, Haoxu Wang, Kai Jiang, Shuo Yang, Kaiwen Zheng, Haocheng Xi, Ziteng Wang, Hongzhou Zhu, Min Zhao, Ion Stoica, Joseph E. Gonzalez, Jianfei Chen, Jun Zhu
2026, TH-CPL-A, Research track, Full paper
| paper | |

NeurIPS SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of 8-Bit Training
Jintao Zhang*, Jia Wei*, Pengle Zhang, Xiaoming Xu, Haofeng Huang, Haoxu Wang, Kai Jiang, Jun Zhu, Jianfei Chen
2025, [spotlight paper], CCF-A, Research track, Full paper
| paper | |

ICMLW SageAttention2++: A More Efficient Implementation of SageAttention2
Jintao Zhang, Xiaoming Xu, Jia Wei, Haofeng Huang, Pengle Zhang, Chendong Xiang, Jun Zhu, Jianfei Chen
2025, workshop paper in ICML
| paper | |

ICML SpargeAttention: Accurate and Training-free Sparse Attention Accelerating Any Model Inference
Jintao Zhang, Chendong Xiang, Haofeng Huang, Haocheng Xi, Jia Wei, Jun Zhu, Jianfei Chen
2025, CCF-A, Research track, Full paper
| paper | |

ICML SageAttention2: Efficient Attention with Thorough Outlier Smoothing and Per-thread INT4 Quantization
Jintao Zhang*, Haofeng Huang*, Pengle Zhang, Jia Wei, Jun Zhu, Jianfei Chen
2025, CCF-A, Research track, Full paper
| paper | |

ICLR SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration
Jintao Zhang, Jia Wei, Pengle Zhang, Jun Zhu, Jianfei Chen
2025, TH-CPL-A, Research track, Full paper
| paper | |

ICDE SAGE: A Framework of Precise Retrieval for RAG
Jintao Zhang, Guoliang Li, Jinyang Su
2025, CCF-A, Research track, Full paper
| paper |

SIGMOD PACE: Poisoning Attacks on Learned Cardinality Estimation
Jintao Zhang, Guoliang Li, Chao Zhang, Chengliang Chai
2024, CCF-A, Research track, Full paper
| paper |

ICDE AutoCE: An Accurate and Efficient Model Advisor for Learned Cardinality Estimation
Jintao Zhang, Chao Zhang, Guoliang Li, Chengliang Chai
2023, CCF-A, Research track, Full paper
| paper |

TKDE A Lightweight Learned Cardinality Estimation Model
Yaoyu Zhu, Jintao Zhang#, Guoliang Li#, Jianhua Feng
2025, CCF-A, Research track, Full paper
| paper |

VLDB Learned Cardinality Estimation: A Design Space Exploration and A Comparative Evaluation
Ji Sun*, Jintao Zhang*, Zhaoyan Sun, Nan Tang, Guoliang Li
2022, CCF-A, Research track, Full paper
| paper | |

Preprint Accurate INT8 Training Through Dynamic Block-Level Fallback
Pengle Zhang, Jia Wei, Jintao Zhang, Jun Zhu, Jianfei Chen
| paper |

NeurIPS Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation
Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Chenfeng Xu, Kelly Peng, Jianfei Chen, Song Han, Kurt Keutzer, Ion Stoica
2025, [spotlight paper], CCF-A, Research track, Full paper
| paper | |

ICML Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity
Haocheng Xi, Shuo Yang, Yilong Zhao, Chenfeng Xu, Muyang Li, Xiuyu Li, Yujun Lin, Han Cai, Jintao Zhang, Dacheng Li, Jianfei Chen, Ion Stoica, Kurt Keutzer, Song Han
2025, CCF-A, Research track, Full paper
| paper | |

Preprint Identifying Sensitive Weights via Post-quantization Integral
Yuezhou Hu, Weiyu Huang, Zichen Liang, Chang Chen, Jintao Zhang, Jun Zhu, Jianfei Chen
| paper |

TKDE HTAP Databases: A Survey
Chao Zhang, Guoliang Li, Jintao Zhang, Xinning Zhang, Jianhua Feng
| paper |

Survey of Key Techniques of HTAP Databases.
Chao Zhang, Guoliang Li, Jianhua Feng, Jintao Zhang
Journal of Software
| paper |

Jintao Zhang (张金涛)

Full Publications