Latticethe structure behind the noise

Papers Digest Topics Selected Labs Collections FAQ

Created by Flynn Lachendro

Papers Digest Topics Labs Saved

Search

Search papers, labs, and topics across Lattice.

Built by Flynn Lachendro·𝕏 / Twitter·RSS··FAQ·Glossary·Privacy

Zhongkai Yu | Lattice

Zhongkai Yu

Papers on Lattice

3

Total citations

0

Topics

5

Publication activitypapers/week, last 8 weeks

Research focus

Distributed Systems & Hardware (2)Inference & Quantization (2)Training Efficiency & Optimization (1)Natural Language Processing (1)

Frequent co-authors

Zaifeng Pan (2)Yufei Ding (2)Haotian Ye (2)Zheng Wang (1)

Papers (3)

Jun 7, 2026

Zheng Wang +71w ago

FlashCP: Load-Balanced Communication-Efficient Context Parallelism for LLM Training

FlashCP achieves up to 1.63x faster training for large language models by eliminating redundant communication and optimizing workload balance.

Zheng Wang, Eric Liu, Linan Jiang +5

Distributed Systems & Hardware Training Efficiency & Optimization

Jun 1, 2026

2w ago·also Institute of Artificial Intelligence and Future Networks, School of Artificial Intelligence, UIUC, University of California Santa Barbara

SimSD: Simple Speculative Decoding in Diffusion Language Models

SimSD achieves a remarkable 7.46x increase in decoding throughput for diffusion language models without sacrificing generation quality.

Junxia Cui, Haotian Ye, Runchu Tian +9

Inference & Quantization Natural Language Processing

Apr 28, 2026

NVIDIAApr 28, 2026·also Columbia, Samsung Semiconductor, UCSD, Yonsei

AMMA: A Multi-Chiplet Memory-Centric Architecture for Low-Latency 1M Context Attention Serving

Forget GPU-centric designs: AMMA slashes attention latency by 15x and energy consumption by 7x with a memory-centric architecture for long-context LLMs.

Zhongkai Yu, Haotian Ye, Haotian Ye +12

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Architecture Design (Transformers, SSMs, MoE) (1)

Linan Jiang (1)