Shiwei Liu

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Architecture Design (Transformers, SSMs, MoE) (2)Inference & Quantization (2)Training Efficiency & Optimization (1)Distributed Systems & Hardware (1)

Frequent co-authors

Dilxat Muhtar (2)Xinyuan Song (1)Sebastian Pokutta (1)S. Pokutta (1)

Papers (2)

Mar 16, 2026

Dilxat Muhtar +7Mar 16, 2026

When Does Sparsity Mitigate the Curse of Depth in LLMs

Sparsity, often viewed as a means for efficiency, actually unlocks deeper, more effective LLMs by taming variance and boosting layer utilization.

Dilxat Muhtar, Xinyuan Song, Sebastian Pokutta +5

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Feb 26, 2026

Stanford HAIFeb 26, 2026

Why Diffusion Language Models Struggle with Truly Parallel (Non-Autoregressive) Decoding?

DLMs aren't truly parallel because their training data is too sequential, but NAP shows how data curation can unlock genuine parallel decoding and boost reasoning performance.

Pengxiang Li, Dilxat Muhtar, Lu Yin +2

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Search

Shiwei Liu

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)