Xinchen Luo

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Recommendation & Information Retrieval (2)Architecture Design (Transformers, SSMs, MoE) (1)Training Efficiency & Optimization (1)Inference & Quantization (1)

Frequent co-authors

Ruiming Tang (2)Chenglong Chu (1)Guorui Zhou (1)Guowang Zhang (1)

Papers (2)

Apr 27, 2026

Chenglong Chu +32Apr 27, 2026·also Institute of Medical Technology, Kuaishou, PKU

Kwai Summary Attention Technical Report

Sub-linear attention is now possible without sacrificing complete long-range dependency retention, thanks to learnable summary tokens that compress context.

Chenglong Chu, Guorui Zhou, Guowang Zhang +30

Architecture Design (Transformers, SSMs, MoE)Recommendation & Information Retrieval Training Efficiency & Optimization

Mar 12, 2026

Mar 12, 2026·also Kuaishou

Quantized Inference for OneRec-V2

Generative recommendation models like OneRec-V2 can achieve near-lossless FP8 quantization, unlocking significant latency and throughput improvements, unlike traditional recommender systems.

Yi Su, Xinchen Luo, Hongtao Cheng +8

Inference & Quantization Recommendation & Information Retrieval

Search

Xinchen Luo

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)