Yuechi Zhou

Papers on Lattice

Total citations

Topics

h-index

Research focus

Architecture Design (Transformers, SSMs, MoE) (1)Inference & Quantization (1)Reasoning & Chain-of-Thought (1)

Frequent co-authors

Yi Su (1)Zhenxu Tian (1)Dan Qiao (1)Juntao Li (1)

Papers (1)

Mar 12, 2026

LongFlow: Efficient KV Cache Compression for Reasoning M

Achieve 11.8x faster reasoning with 80% KV cache compression by estimating token importance directly from FlashAttention's intermediate results – no extra compute needed.

Yi Su, Zhenxu Tian, Dan Qiao +2

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Reasoning & Chain-of-Thought

Search

Yuechi Zhou

Research focus

Frequent co-authors

Papers (1)