Hengyi Cai

Papers on Lattice

Total citations

Topics

h-index

Research focus

Architecture Design (Transformers, SSMs, MoE) (1)Distributed Systems & Hardware (1)Inference & Quantization (1)Training Efficiency & Optimization (1)

Frequent co-authors

Qiyang Li (1)Rui Kong (1)Shuaiqiang Wang (1)Linghe Kong (1)

Papers (1)

Mar 12, 2026

Qiyang Li +6Mar 12, 2026

AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization

Decoding LLMs with dynamic adapters doesn't have to be 2.5x slower: AdaFuse slashes latency by 2.4x with token-level pre-gating and fused kernel optimization.

Qiyang Li, Rui Kong, Hengyi Cai +4

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization+1

Search

Hengyi Cai

Research focus

Frequent co-authors

Papers (1)