Lattice AI Research

Research focus

Architecture Design (Transformers, SSMs, MoE) (2)Distributed Systems & Hardware (1)Inference & Quantization (1)RLHF & Preference Learning (1)Training Efficiency & Optimization (1)

Frequent co-authors

Hongbin Zhang (1)Taosheng Wei (1)Jiazhi Jiang (1)Zhiguang Chen (1)

Papers (2)

May 4, 2026

Hongbin Zhang +4May 4, 2026

PipeMax: Enhancing Offline LLM Inference on Commodity GPU Servers

Commodity GPU servers can achieve surprisingly high LLM inference throughput by cleverly orchestrating pipeline parallelism with KV cache offloading.

Hongbin Zhang, Taosheng Wei, Jiazhi Jiang +2

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Feb 24, 2026

Zhenxing Xu +3Feb 24, 2026·also NUDT

Rethink Efficiency Side of Neural Combinatorial Solver: An Offline and Self-Play Paradigm

Ditch online training for neural combinatorial solvers: ECO leverages offline self-play with Mamba to achieve state-of-the-art performance with significantly improved memory utilization and training throughput.

Zhenxing Xu, Weidong Bao, Hui Yan +1

Architecture Design (Transformers, SSMs, MoE)RLHF & Preference Learning Training Efficiency & Optimization

Search

Hui Yan

Research focus

Frequent co-authors

Papers (2)