Lattice AI Research

Research focus

Architecture Design (Transformers, SSMs, MoE) (2)Inference & Quantization (2)Reasoning & Chain-of-Thought (1)Training Efficiency & Optimization (1)

Frequent co-authors

Li Dong (2)Yutao Sun (1)Yanqi Zhang (1)Furu Wei (1)

Papers (2)

Jun 4, 2026

Microsoft Research2w ago

You Only Index Once: Cross-Layer Sparse Attention with Shared Routing

Achieving up to 7.6x faster decoding and 17.1x greater throughput, CLSA redefines efficiency in long-context LLMs without compromising accuracy.

Yutao Sun, Yanqi Zhang, Li Dong +2

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Reasoning & Chain-of-Thought

Apr 1, 2026

Yutao Sun +5Apr 1, 2026

Universal YOCO for Efficient Depth Scaling

By cleverly combining YOCO's efficient attention with recursive computation, YOCO-U achieves a capability-efficiency sweet spot that neither technique can reach on its own.

Yutao Sun, Li Dong, Tianzhu Ye +3

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Jianyong Wang

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)

Search

Jianyong Wang

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)