Shuyi Pei

Samsung Semiconductor, Inc.

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Architecture Design (Transformers, SSMs, MoE) (1)Distributed Systems & Hardware (1)Inference & Quantization (1)

Frequent co-authors

Zhongkai Yu (1)Haotian Ye (1)Haotian Ye (1)Chenyang Zhou (1)

Papers (1)

Apr 28, 2026

NVIDIAApr 28, 2026·also Columbia, Samsung Semiconductor, UCSD, Yonsei

AMMA: A Multi-Chiplet Memory-Centric Architecture for Low-Latency 1M Context Attention Serving

Forget GPU-centric designs: AMMA slashes attention latency by 15x and energy consumption by 7x with a memory-centric architecture for long-context LLMs.

Zhongkai Yu, Haotian Ye, Haotian Ye +12

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Search

Shuyi Pei

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (1)