Haocheng Xi

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Inference & Quantization (3)Training Efficiency & Optimization (3)Architecture Design (Transformers, SSMs, MoE) (3)Distributed Systems & Hardware (1)

Frequent co-authors

Jintao Zhang (3)Kurt Keutzer (3)Shuo Yang (2)Shuo Yang (2)

Papers (4)

Mar 10, 2026

BAIRMar 10, 2026·also NVIDIA, Tsinghua AI, RUC, Soyeon Caren Han is the corresponding

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

K-means, previously relegated to offline processing, gets a 17.9x speed boost on modern GPUs thanks to Flash-KMeans' clever IO and contention optimizations.

Shuo Yang, Shuo Yang, Haocheng Xi +18

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

Mar 9, 2026

BAIRMar 9, 2026·also Tsinghua AI, Soyeon Caren Han is the corresponding

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

Get 2x faster video generation from diffusion transformers without sacrificing quality, thanks to a clever parameter-free error compensation technique.

Xuanyi Zhou, Xuanyi Zhou, Qiuyang Mang +11

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Feb 13, 2026

Tsinghua AIFeb 13, 2026·also BAIR

SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning

SpargeAttention2 achieves 95% attention sparsity in video diffusion models with a 16.2x speedup, proving that trainable sparse attention can significantly outperform training-free methods without sacrificing generation quality.

Jintao Zhang, Jintao Zhang, Kai Jiang +7

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Feb 5, 2025

Rishabh Tiwari +9Feb 5, 2025·also BAIR

QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache

Forget sparse KV caches – QuantSpec's hierarchical 4-bit quantization unlocks 2.5x speedups in long-context LLM inference with >90% acceptance rates.

Rishabh Tiwari, Haocheng Xi, Aditya Tomar +710

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization

Search

Haocheng Xi

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (4)