Mingze Wang

Peking University

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Architecture Design (Transformers, SSMs, MoE) (2)Training Efficiency & Optimization (2)Scaling Laws & Emergent Abilities (1)

Frequent co-authors

Shuchen Zhu (2)Yuxin Fang (1)Binghui Li (1)Kai Shen (1)

Papers (2)

May 26, 2026

2w ago

Negligible in Size, Significant in Effect: On Scale Vectors in Large Language Models

Scale vectors, despite being a tiny fraction of LLM parameters, are critical for pre-training, and this paper unlocks how to make them even better with simple, theoretically-grounded tweaks.

Mingze Wang, Shuchen Zhu, Yuxin Fang +3

Architecture Design (Transformers, SSMs, MoE)Scaling Laws & Emergent Abilities Training Efficiency & Optimization

Feb 26, 2026

Shuchen Zhu +9Feb 26, 2026·also Corresponding author, PKU

Accelerating LLM Pre-Training through Flat-Direction Dynamics Enhancement

By strategically amplifying updates along flat directions in the loss landscape, LITE unlocks faster LLM pre-training with existing matrix-based optimizers like Muon and SOAP.

Shuchen Zhu, Shuchen Zhu, Rizhen Hu +7

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Search

Mingze Wang

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)