Jintao Zhang

Tsinghua University

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Inference & Quantization (8)Training Efficiency & Optimization (7)Architecture Design (Transformers, SSMs, MoE) (5)Computer Vision (4)

Frequent co-authors

Jianfei Chen (3)Haocheng Xi (3)Joseph E. Gonzalez (3)Kai Jiang (3)

Papers (9)

Apr 19, 2026

Tsinghua AI6d ago

Speculative Decoding for Autoregressive Video Generation

Autoregressive video diffusion gets a 2x speed boost with minimal quality loss, thanks to a clever speculative decoding approach that uses an image-quality router to verify proposed video blocks.

Yuezhou Hu, Jintao Zhang

Computer Vision Inference & Quantization

Apr 8, 2026

Tsinghua AI2w ago·also NUS

SHIELD: A Segmented Hierarchical Memory Architecture for Energy-Efficient LLM Inference on Edge NPUs

You can slash LLM inference energy by 35% on edge devices just by intelligently managing eDRAM refresh rates based on activation data type and lifespan.

Jintao Zhang, Xuanyao Fong

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Mar 19, 2026

Tsinghua AIMar 19, 2026

6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion Models

Video diffusion models can be aggressively quantized down to 6-bit precision with minimal quality loss by dynamically adapting the bit-width of each layer based on its temporal stability.

Rundong Su, Jintao Zhang, Zhihang Yuan +2

Computer Vision Inference & Quantization Training Efficiency & Optimization

Mar 10, 2026

BAIRMar 10, 2026·also NVIDIA, Tsinghua AI, RUC, Soyeon Caren Han is the corresponding

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

K-means, previously relegated to offline processing, gets a 17.9x speed boost on modern GPUs thanks to Flash-KMeans' clever IO and contention optimizations.

Shuo Yang, Shuo Yang, Haocheng Xi +18

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

Mar 9, 2026

BAIRMar 9, 2026·also Tsinghua AI, Soyeon Caren Han is the corresponding

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

Get 2x faster video generation from diffusion transformers without sacrificing quality, thanks to a clever parameter-free error compensation technique.

Xuanyi Zhou, Xuanyi Zhou, Qiuyang Mang +11

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Mar 8, 2026

These authors contributed equallyMar 8, 2026·also Tsinghua AI

HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

Achieve nearly 2x speedup in Stable Diffusion 3 by intelligently stitching together large and small diffusion models at both the pixel and timestep level.

Desen Sun, Jason Hon, Jason Hon +3

Computer Vision Inference & Quantization Training Efficiency & Optimization

Mar 2, 2026

BAIRMar 2, 2026·also Tsinghua AI

SageBwd: A Trainable Low-bit Attention

Trainable INT8 attention can match full-precision attention during pre-training, but only if you normalize QK and reduce tokens per step.

Jintao Zhang, Jintao Zhang, Marco Chen +6

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Feb 13, 2026

Tsinghua AIFeb 13, 2026·also BAIR

SLA2: Sparse-Linear Attention with Learnable Routing and QAT

Achieve an 18.6x speedup in video diffusion models with 97% attention sparsity by learning how to route and combine sparse and linear attention, outperforming heuristic approaches.

Jintao Zhang, Haoxu Wang, Kai Jiang +5

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Tsinghua AIFeb 13, 2026·also BAIR

SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning

SpargeAttention2 achieves 95% attention sparsity in video diffusion models with a 16.2x speedup, proving that trainable sparse attention can significantly outperform training-free methods without sacrificing generation quality.

Jintao Zhang, Jintao Zhang, Kai Jiang +7

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Search

Jintao Zhang

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (9)