Yi Su

Soochow University

Papers on Lattice

Total citations

Topics

h-index

Research focus

Inference & Quantization (3)Architecture Design (Transformers, SSMs, MoE) (2)Recommendation & Information Retrieval (1)Reasoning & Chain-of-Thought (1)

Frequent co-authors

Zhenxu Tian (2)Juntao Li (2)Xinchen Luo (1)Hongtao Cheng (1)

Papers (3)

Mar 12, 2026

Mar 12, 2026·also Kuaishou

Quantized Inference for OneRec-V2

Generative recommendation models like OneRec-V2 can achieve near-lossless FP8 quantization, unlocking significant latency and throughput improvements, unlike traditional recommender systems.

Yi Su, Xinchen Luo, Hongtao Cheng +8

Inference & Quantization Recommendation & Information Retrieval

Mar 12, 2026

Where Matters More Than What: Decoding-aligned KV Cache Compression via Position-aware Pseudo Queries

Forget content, remember position: crafting pseudo-queries based on token position alone yields surprisingly effective KV cache compression for LLMs, rivaling methods that analyze input semantics.

Zhenxu Tian, Yi Su, Juntao Li

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization

Mar 12, 2026

LongFlow: Efficient KV Cache Compression for Reasoning M

Achieve 11.8x faster reasoning with 80% KV cache compression by estimating token importance directly from FlashAttention's intermediate results – no extra compute needed.

Yi Su, Zhenxu Tian, Dan Qiao +2

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Reasoning & Chain-of-Thought

Search

Yi Su

Research focus

Frequent co-authors

Papers (3)