Lattice AI Research

Research focus

Training Efficiency & Optimization (3)Architecture Design (Transformers, SSMs, MoE) (2)Inference & Quantization (2)Code Generation & Program Synthesis (2)

Frequent co-authors

Joseph E. Gonzalez (3)Jintao Zhang (2)Haoxu Wang (2)Kai Jiang (2)

Papers (4)

Mar 2, 2026

BAIRMar 2, 2026·also Tsinghua AI

SageBwd: A Trainable Low-bit Attention

Trainable INT8 attention can match full-precision attention during pre-training, but only if you normalize QK and reduce tokens per step.

Jintao Zhang, Jintao Zhang, Marco Chen +6

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Feb 23, 2026

BAIRFeb 23, 2026·also Databricks

AdaEvolve: Adaptive LLM Driven Zeroth-Order Optimization

LLM-driven program evolution gets a smart upgrade: AdaEvolve dynamically allocates resources to promising solution candidates, leaving static schedules in the dust.

Mert Cemri, M. Cemri, Shubham Agrawal +19

Code Generation & Program Synthesis Tool Use & Agents Training Efficiency & Optimization

Feb 22, 2026

Shiyi Cao +7Feb 22, 2026·also BAIR

K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World Model

LLMs can now design GPU kernels that outperform both human experts and prior automated methods, thanks to a co-evolving world model that guides the search process.

Shiyi Cao, Shiyi Cao, Ziming Mao +5

Code Generation & Program Synthesis Distributed Systems & Hardware World Models & Planning

Feb 13, 2026

Tsinghua AIFeb 13, 2026·also BAIR

SLA2: Sparse-Linear Attention with Learnable Routing and QAT

Achieve an 18.6x speedup in video diffusion models with 97% attention sparsity by learning how to route and combine sparse and linear attention, outperforming heuristic approaches.

Jintao Zhang, Haoxu Wang, Kai Jiang +5

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Ion Stoica

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (4)