Quan Chen

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Architecture Design (Transformers, SSMs, MoE) (2)Distributed Systems & Hardware (2)Inference & Quantization (1)Training Efficiency & Optimization (1)

Frequent co-authors

Chen Chen (1)Zhibin Yu (1)Minyi Guo (1)Chunyu Xue (1)

Papers (2)

Mar 11, 2026

Tsinghua AIMar 11, 2026·also SJTU

S-HPLB: Efficient LLM Attention Serving via Sparsity-Aware Head Parallelism Load Balance

Exploit the surprisingly stable, yet heterogeneous, sparsity patterns across attention heads to slash LLM attention latency by 2.88x without sacrificing quality.

Chen Chen, Zhibin Yu, Quan Chen +1

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Mar 3, 2026

Chunyu Xue +6Mar 3, 2026

MuxTune: Efficient Multi-Task LLM Fine-Tuning in Multi-Tenant Datacenters via Spatial-Temporal Backbone Multiplexing

Run 2x more LLM fine-tuning jobs on the same hardware with MuxTune's clever spatial-temporal multiplexing, making your datacenter greener and your boss happier.

Chunyu Xue, Yinxu Pan, Weihao Cui +4

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Search

Quan Chen

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)