Xuwen Zhou

Papers on Lattice

Total citations

Topics

Research focus

Architecture Design (Transformers, SSMs, MoE) (1)Inference & Quantization (1)Natural Language Processing (1)

Frequent co-authors

Chao Wang (1)Xiao Zheng (1)Haibing Guan (1)

Papers (1)

Apr 15, 2026

Xuwen Zhou +3Apr 15, 2026·also SJTU

Calibrated Speculative Decoding: Frequency-Guided Candidate Selection for Efficient Inference

Speculative decoding can be sped up by >2x without sacrificing accuracy by rescuing previously rejected tokens that are semantically valid but lexically different.

Xuwen Zhou, Chao Wang, Xiao Zheng +1

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Natural Language Processing

Search

Xuwen Zhou

Research focus

Frequent co-authors

Papers (1)