Yewei Fang

Papers on Lattice

Total citations

Topics

h-index

Research focus

Architecture Design (Transformers, SSMs, MoE) (1)Inference & Quantization (1)Training Efficiency & Optimization (1)

Frequent co-authors

MiniCPM Team Wenhao An (1)Yingfa Chen (1)Yaohui Li (1)Yishan Li (1)

Papers (1)

Feb 12, 2026

Tsinghua AIFeb 12, 2026·also Ministry of Education Key Laboratory of Intelligent Networks and Network Security, Tongji, UC Santa Cruz, XJTU

MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

Forget full attention: a hybrid sparse-linear attention model, MiniCPM-SALA, achieves 3.5x faster inference and supports 1M context length on a single GPU, all while maintaining comparable performance.

MiniCPM Team Wenhao An, Yingfa Chen, Yewei Fang +31

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Search

Yewei Fang

Research focus

Frequent co-authors

Papers (1)