Lan Liu

Papers on Lattice

Total citations

Topics

Research focus

Architecture Design (Transformers, SSMs, MoE) (1)Distributed Systems & Hardware (1)Inference & Quantization (1)

Frequent co-authors

Songchen Ma (1)Hongyi Li (1)Weihao Zhang (1)Yonghao Tan (1)

Papers (1)

Mar 29, 2026

Expert Streaming: Accelerating Low-Batch MoE Inference via Multi-chiplet Architecture and Dynamic Expert Trajectory Scheduling

Multi-chiplet architectures can unlock significant speedups and memory savings for low-batch MoE inference by dynamically scheduling expert computations across high-bandwidth die-to-die links.

Songchen Ma, Hongyi Li, Weihao Zhang +7

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Search

Lan Liu

Research focus

Frequent co-authors

Papers (1)