S. Kwon

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Architecture Design (Transformers, SSMs, MoE) (1)Training Efficiency & Optimization (1)

Frequent co-authors

Jeongin Bae (1)Baeseong Park (1)Gunho Park (1)Gunho Park (1)

Papers (1)

Feb 26, 2026

Jeongin Bae +152w ago

Affine-Scaled Attention: Towards Flexible and Stable Transformer Attention

Ditching the strict unit-sum constraint in softmax attention with a simple affine scaling trick unlocks more stable training and better downstream performance for Transformers.

Jeongin Bae, Baeseong Park, Gunho Park +13

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Search

S. Kwon

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (1)