Jianchao Tan

Papers on Lattice

Total citations

Topics

Research focus

Architecture Design (Transformers, SSMs, MoE) (3)Training Efficiency & Optimization (3)Distributed Systems & Hardware (2)Natural Language Processing (1)

Frequent co-authors

Hongtao Xu (2)Yifan Lu (2)Pingwei Sun (2)Yerui Sun (2)

Papers (3)

May 26, 2026

Jiacheng Li +6May 26, 2026

MONA: Muon Optimizer with Nesterov Acceleration for Scalable Language Model Training

MONA unlocks faster LLM pretraining and superior downstream performance by turbocharging the Muon optimizer with Nesterov-style acceleration, leaving AdamW in the dust.

Jiacheng Li, Jianchao Tan, Hongtao Xu +4

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Apr 21, 2026

Corresponding authorApr 21, 2026

FG$^2$-GDN: Enhancing Long-Context Gated Delta Networks with Doubly Fine-Grained Control

Channel-wise adaptive learning rates in Gated Delta Networks unlock superior long-context recall, rivaling softmax attention without the quadratic cost.

Pingwei Sun, Jianchao Tan, Xue Wang +3

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Apr 15, 2026

Apr 15, 2026·also Corresponding author, Meituan

SparseBalance: Load-Balanced Long Context Training with Dynamic Sparse Attention

Training long-context sparse attention models doesn't have to be a slow, imbalanced mess: SparseBalance achieves 1.33x speedup while *improving* accuracy.

Hongtao Xu, Jianchao Tan, Pengju Lu +4

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Search

Jianchao Tan

Research focus

Frequent co-authors

Papers (3)