Pingwei Sun

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Architecture Design (Transformers, SSMs, MoE) (1)Distributed Systems & Hardware (1)Inference & Quantization (1)

Frequent co-authors

Yuxuan Hu (1)Jianchao Tan (1)Jiaqi Zhang (1)Wen Zan (1)

Papers (1)

Apr 9, 2026

2w ago·also Corresponding author

AsyncTLS: Efficient Generative LLM Inference with Asynchronous Two-level Sparse Attention

Achieve full-attention accuracy with 10x operator speedup and 4.7x throughput improvement in long-context LLM inference by overlapping KV cache transfers with computation.

Yuxuan Hu, Jianchao Tan, Jiaqi Zhang +7

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Search

Pingwei Sun

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (1)