Lattice AI Research

Research focus

Architecture Design (Transformers, SSMs, MoE) (2)Inference & Quantization (2)Distributed Systems & Hardware (1)Recommendation & Information Retrieval (1)

Frequent co-authors

Xueshen Liu (1)Yuncheng Yao (1)Yuncheng Yao (1)Danyang Zhuo (1)

Papers (2)

Apr 8, 2026

Apr 8, 2026·also BAIR, Duke

Foundry: Template-Based CUDA Graph Context Materialization for Fast LLM Serving Cold Start

Cut LLM cold starts from minutes to seconds by pre-materializing CUDA graph execution contexts, sidestepping brittle kernel patching and heavyweight checkpointing.

Xueshen Liu, Yuncheng Yao, Yuncheng Yao +5

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Mar 5, 2026

Xin Teng +5Mar 5, 2026

InfoFlow KV: Information-Flow-Aware KV Recomputation for Long Context

Attention norms, computed under a RoPE geometry, pinpoint the exact tokens in retrieved documents that unlock better long-context RAG, enabling more efficient KV recomputation.

Xin Teng, Canyu Zhang, Shaoyi Zheng +3

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Recommendation & Information Retrieval

Search

Danyang Zhuo

Research focus

Frequent co-authors

Papers (2)