Minxin Zhang

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Architecture Design (Transformers, SSMs, MoE) (1)Natural Language Processing (1)Training Efficiency & Optimization (1)

Frequent co-authors

Minxin Zhang (1)Yuxuan Liu (1)Yuxuan Liu (1)Hayden Schaeffer (1)

Papers (1)

Feb 19, 2026

3w ago

Adam Improves Muon: Adaptive Moment Estimation with Orthogonalized Momentum

By fusing orthogonalized momentum with adaptive noise scaling, NAMO and NAMO-D offer a surprisingly simple recipe for faster and more stable LLM training compared to AdamW and Muon.

Minxin Zhang, Minxin Zhang, Yuxuan Liu +3

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Search

Minxin Zhang

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (1)