Xuehai He

Microsoft

Papers on Lattice

Total citations

Topics

Research focus

Architecture Design (Transformers, SSMs, MoE) (1)Scaling Laws & Emergent Abilities (1)Training Efficiency & Optimization (1)

Frequent co-authors

Zeyi Huang (1)Yiping Wang (1)Baolin Peng (1)Shuohang Wang (1)

Papers (1)

May 26, 2026

Microsoft ResearchMay 26, 2026·also UW, UW-Madison

Latent Recurrent Transformer: Architecture Exploration, Training Strategies, and Scaling Behavior

Recurrent memory can be added to transformers at scale with minimal parameter overhead and no performance penalty by reusing existing hidden states and training with interleaved parallel updates.

Zeyi Huang, Xuehai He, Yiping Wang +3

Architecture Design (Transformers, SSMs, MoE)Scaling Laws & Emergent Abilities Training Efficiency & Optimization

Search

Xuehai He

Research focus

Frequent co-authors

Papers (1)