Lattice AI Research

Research focus

Inference & Quantization (2)Reasoning & Chain-of-Thought (2)Training Efficiency & Optimization (1)Architecture Design (Transformers, SSMs, MoE) (1)

Frequent co-authors

Yixin Ji (1)Ruotao Xu (1)Ruotao Xu (1)Dan Qiao (1)

Papers (2)

Apr 8, 2026

3w ago

When Is Thinking Enough? Early Exit via Sufficiency Assessment for Efficient Reasoning

Stop wasting compute: LRMs can cut reasoning steps by 30% without sacrificing accuracy using a metacognitive approach to determine when "thinking is enough."

Yixin Ji, Ruotao Xu, Ruotao Xu +3

Inference & Quantization Reasoning & Chain-of-Thought Training Efficiency & Optimization

Mar 12, 2026

LongFlow: Efficient KV Cache Compression for Reasoning M

Achieve 11.8x faster reasoning with 80% KV cache compression by estimating token importance directly from FlashAttention's intermediate results – no extra compute needed.

Yi Su, Zhenxu Tian, Dan Qiao +2

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Reasoning & Chain-of-Thought

Search

Dan Qiao

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)