Danyang Zhuo

Duke University

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Distributed Systems & Hardware (2)Inference & Quantization (2)Architecture Design (Transformers, SSMs, MoE) (1)

Frequent co-authors

Chiyue Wei (1)Cong Guo (1)Bowen Duan (1)Junyao Zhang (1)

Papers (2)

May 24, 2026

3w ago·also NUS

Optimus: Elastic Decoding for Efficient Diffusion LLM Serving

Diffusion LLMs can achieve up to 6.1x higher throughput than autoregressive models by dynamically adjusting decoding granularity based on real-time load, a feat unattainable with fixed-block approaches.

Chiyue Wei, Cong Guo, Bowen Duan +6

Distributed Systems & Hardware Inference & Quantization

Apr 8, 2026

Apr 8, 2026·also BAIR, Duke

Foundry: Template-Based CUDA Graph Context Materialization for Fast LLM Serving Cold Start

Cut LLM cold starts from minutes to seconds by pre-materializing CUDA graph execution contexts, sidestepping brittle kernel patching and heavyweight checkpointing.

Xueshen Liu, Yongji Wu, Yuncheng Yao +6

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Search

Danyang Zhuo

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)