Zhi-Qin John Xu

Adam can achieve linear convergence on highly degenerate polynomials without careful tuning, thanks to a built-in mechanism that exponentially amplifies the effective learning rate.

Zhiwei Bai, Jiajie Zhao, Zhangchen Zhou +2

Training Efficiency & Optimization

Mar 2, 2026

Shixiang Song +11Mar 2, 2026·also SJTU

AdaPonderLM: Gated Pondering Language Models with Token-Wise Adaptive Depth

Key contribution not extracted.

Shixiang Song, Zitong Wang, Boyi Zeng +9

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Fei Song +10Mar 2, 2026·also SJTU

PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking

Stop wasting compute: PonderLM-3 learns to spend extra inference FLOPs only on the tokens that actually need them, outperforming fixed-step pondering methods.

Fei Song, Feichen Song, Boyi Zeng +8

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Search

Zhi-Qin John Xu

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (4)