Shuaiwen Leon Song

Together AI

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Architecture Design (Transformers, SSMs, MoE) (3)Inference & Quantization (3)Training Efficiency & Optimization (2)Distributed Systems & Hardware (1)

Frequent co-authors

Ben Athiwaratkun (4)Zhongzhu Zhou (3)Junxiong Wang (3)Chenfeng Xu (3)

Papers (4)

Jun 15, 2026

Jun 15, 2026·also BAIR, Together

Taylor-Calibrate: Principled Initialization for Hybrid Linear Attention Distillation

Achieving up to 88x efficiency gains, Taylor-Calibrate transforms the way we initialize hybrid linear attention models, drastically reducing the training burden.

Zhongzhu Zhou, Qingyang Wu, Junxiong Wang +6

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization

Apr 21, 2026

Jinda Jia +7Apr 21, 2026·also Tsinghua AI, Peng Cheng Laboratory, Sydney, Together

SAW-INT4: System-Aware 4-Bit KV-Cache Quantization for Real-World LLM Serving

Forget fancy quantization schemes – a simple token-wise INT4 quantization with Hadamard rotation is all you need to nearly match FP16 accuracy in LLM serving, without sacrificing throughput.

Jinda Jia, Zhongzhu Zhou, Junghwa Heo +5

Distributed Systems & Hardware Inference & Quantization

Apr 13, 2026

Apr 13, 2026·also Princeton, Sydney, Together, UT Austin

Introspective Diffusion Language Models

Diffusion language models can now match autoregressive quality, thanks to a clever trick that forces them to agree with themselves.

Yifan Yu, Yuqing Jian, Junxiong Wang +9

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Mar 18, 2026

Fengxiang Bie +5Mar 18, 2026·also Sydney, Together

CARE: Covariance-Aware and Rank-Enhanced Decomposition for Enabling Multi-Head Latent Attention

Forget SVD: CARE aligns low-rank attention approximations with input activations, boosting accuracy up to 1.7x and slashing perplexity by 215x when converting models to multi-head latent attention.

Fengxiang Bie, Ziyan Chen, Junxiong Wang +3

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Search

Shuaiwen Leon Song

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (4)