Weizhu Chen

Papers on Lattice

Total citations

Topics

h-index

Research focus

Architecture Design (Transformers, SSMs, MoE) (2)Training Efficiency & Optimization (2)Recommendation & Information Retrieval (1)Scaling Laws & Emergent Abilities (1)

Frequent co-authors

LiLiang Ren (2)Yelong Shen (2)Zichong Li (1)Chen Liang (1)

Papers (2)

Apr 15, 2026

Zichong Li +5Apr 15, 2026·also Microsoft Research

Shuffle the Context: RoPE-Perturbed Self-Distillation for Long-Context Adaptation

LLMs can be made far more robust to the position of information in long contexts by simply shuffling the context during fine-tuning.

Zichong Li, Chen Liang, LiLiang Ren +3

Architecture Design (Transformers, SSMs, MoE)Recommendation & Information Retrieval Training Efficiency & Optimization

Mar 30, 2026

LiLiang Ren +2Mar 30, 2026·also Microsoft Research

Rethinking Language Model Scaling under Transferable Hypersphere Optimization

Forget painstaking hyperparameter tuning: this hypersphere parameterization lets you transfer a single learning rate across model sizes, depths, and even MoE architectures, slashing compute costs by 1.58x.

LiLiang Ren, Yelong Shen, Weizhu Chen

Architecture Design (Transformers, SSMs, MoE)Scaling Laws & Emergent Abilities Training Efficiency & Optimization

Search

Weizhu Chen

Research focus

Frequent co-authors

Papers (2)