Lattice AI Research

Research focus

Inference & Quantization (2)Architecture Design (Transformers, SSMs, MoE) (1)Training Efficiency & Optimization (1)Distributed Systems & Hardware (1)

Frequent co-authors

Wenzheng Zhang (1)Wenzheng Zhang (1)Bingzheng Liu (1)Bingzhe Liu (1)

Papers (2)

Feb 26, 2026

2w ago

pQuant: Towards Effective Low-Bit Language Models via Decoupled Linear Quantization-Aware Training

Sub-2-bit LLMs can now achieve state-of-the-art performance thanks to pQuant, which selectively preserves sensitive parameters in a high-precision branch during quantization-aware training.

Wenzheng Zhang, Wenzheng Zhang, Bingzheng Liu +7

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Feb 16, 2026

Feb 16, 2026·also SJTU

Efficient Multi-round LLM Inference over Disaggregated Serving

Multi-round LLM inference gets a major speed boost with AMPD, a new disaggregated serving framework that intelligently manages interleaved prefill-decode workloads.

Wenhao He, Youhe Jiang, Penghao Zhao +4

Distributed Systems & Hardware Inference & Quantization Tool Use & Agents

Bin Cui

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)

Search

Bin Cui

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)