Yuchen Xie

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Architecture Design (Transformers, SSMs, MoE) (3)Natural Language Processing (2)Training Efficiency & Optimization (2)Distributed Systems & Hardware (1)

Frequent co-authors

Pingwei Sun (2)Yuxuan Hu (2)Jianchao Tan (2)Yerui Sun (2)

Papers (3)

Apr 21, 2026

Corresponding author5d ago

FG$^2$-GDN: Enhancing Long-Context Gated Delta Networks with Doubly Fine-Grained Control

Channel-wise adaptive learning rates in Gated Delta Networks unlock superior long-context recall, rivaling softmax attention without the quadratic cost.

Pingwei Sun, Yuxuan Hu, Jianchao Tan +6

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Apr 15, 2026

1w ago·also Corresponding author, Meituan

SparseBalance: Load-Balanced Long Context Training with Dynamic Sparse Attention

Training long-context sparse attention models doesn't have to be a slow, imbalanced mess: SparseBalance achieves 1.33x speedup while *improving* accuracy.

Hongtao Xu, Jianchao Tan, Yuxuan Hu +8

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Apr 11, 2026

Tsinghua AI2w ago·also HKU, Huawei, LongCat Team, Ohio State +3

Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation

Attention Sink, where Transformers fixate on seemingly irrelevant tokens, is more than just a quirk – it's a fundamental challenge impacting training, inference, and even causing hallucinations, demanding a systematic approach to understanding and mitigating its effects.

Zunhai Su, Hengyuan Zhang, Yifan Zhang +13

Architecture Design (Transformers, SSMs, MoE)Interpretability & Mechanistic Interp Natural Language Processing

Search

Yuchen Xie

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (3)