Di He

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Architecture Design (Transformers, SSMs, MoE) (1)Scaling Laws & Emergent Abilities (1)Training Efficiency & Optimization (1)

Frequent co-authors

Songjun Tu (1)Keyu Wang (1)Lu Yin (1)Shiwei Liu (1)

Papers (1)

May 21, 2026

Di He +42w ago

One LR Doesn't Fit All: Heavy-Tail Guided Layerwise Learning Rates for LLMs

LLMs train 1.5x faster and generalize better with a surprisingly simple trick: adapt learning rates per-layer based on the "heavy-tailedness" of their weight matrices.

Di He, Songjun Tu, Keyu Wang +2

Architecture Design (Transformers, SSMs, MoE)Scaling Laws & Emergent Abilities Training Efficiency & Optimization

Search

Di He

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (1)