Juntao Li

Papers on Lattice

Total citations

Topics

h-index

Research focus

Architecture Design (Transformers, SSMs, MoE) (2)Inference & Quantization (2)Reasoning & Chain-of-Thought (1)

Frequent co-authors

Zhenxu Tian (2)Yi Su (2)Dan Qiao (1)Yuechi Zhou (1)

Papers (2)

Mar 12, 2026

Where Matters More Than What: Decoding-aligned KV Cache Compression via Position-aware Pseudo Queries

Forget content, remember position: crafting pseudo-queries based on token position alone yields surprisingly effective KV cache compression for LLMs, rivaling methods that analyze input semantics.

Zhenxu Tian, Yi Su, Juntao Li

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization

Mar 12, 2026

LongFlow: Efficient KV Cache Compression for Reasoning M

Achieve 11.8x faster reasoning with 80% KV cache compression by estimating token importance directly from FlashAttention's intermediate results – no extra compute needed.

Yi Su, Zhenxu Tian, Dan Qiao +2

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Reasoning & Chain-of-Thought

Search

Juntao Li

Research focus

Frequent co-authors

Papers (2)