Lattice AI Research

Research focus

Distributed Systems & Hardware (2)Training Efficiency & Optimization (1)Architecture Design (Transformers, SSMs, MoE) (1)Inference & Quantization (1)

Frequent co-authors

Zhongkai Yu (2)Yufei Ding (2)Zheng Wang (1)Eric Liu (1)

Papers (2)

Jun 7, 2026

Zheng Wang +71w ago·also Rice

FlashCP: Load-Balanced Communication-Efficient Context Parallelism for LLM Training

FlashCP achieves up to 1.63x faster training for large language models by eliminating redundant communication and optimizing workload balance.

Zheng Wang, Eric Liu, Linan Jiang +5

Distributed Systems & Hardware Training Efficiency & Optimization

Apr 28, 2026

NVIDIAApr 28, 2026·also Columbia, Samsung Semiconductor, UCSD, Yonsei

AMMA: A Multi-Chiplet Memory-Centric Architecture for Low-Latency 1M Context Attention Serving

Forget GPU-centric designs: AMMA slashes attention latency by 15x and energy consumption by 7x with a memory-centric architecture for long-context LLMs.

Zhongkai Yu, Haotian Ye, Haotian Ye +12

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Zaifeng Pan

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)

Search

Zaifeng Pan

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)