Lu Liu

Papers on Lattice

Total citations

Topics

h-index

Research focus

Architecture Design (Transformers, SSMs, MoE) (1)Training Efficiency & Optimization (1)

Frequent co-authors

Tianjin Huang (1)Ziquan Zhu (1)Gaojie Jin (1)Zhangyang Wang (1)

Papers (1)

Jan 12, 2025

Tianjin Huang +5Jan 12, 2025

SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training

Gradient spikes in LLM training can be 1000x larger than normal, but a new optimizer, SPAM, tames them with momentum reset and spike-aware clipping, boosting performance and memory efficiency.

Tianjin Huang, Ziquan Zhu, Gaojie Jin +315

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Search

Lu Liu

Research focus

Frequent co-authors

Papers (1)