Lattice AI Research

Research focus

Architecture Design (Transformers, SSMs, MoE) (1)Distributed Systems & Hardware (1)Inference & Quantization (1)Reasoning & Chain-of-Thought (1)Recommendation & Information Retrieval (1)

Frequent co-authors

Baihui Liu (1)Kaiyuan Tian (1)Zhaoning Zhang (1)Dongsheng Li (1)

Papers (2)

Apr 9, 2026

Baihui Liu +4Apr 9, 2026

Alloc-MoE: Budget-Aware Expert Activation Allocation for Efficient Mixture-of-Experts Inference

Squeeze 34% more decode speed out of your MoE model without sacrificing accuracy by intelligently budgeting expert activations.

Baihui Liu, Kaiyuan Tian, Zhaoning Zhang +2

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Mar 2, 2026

NVIDIAMar 2, 2026·also NUDT

Let the Agent Search: Autonomous Exploration Beats Rigid Workflows in Temporal Question Answering

Autonomous exploration by an LLM agent dramatically outperforms both rigid retrieval workflows and supervised fine-tuning for temporal knowledge graph question answering, achieving state-of-the-art results in a zero-shot setting.

Xufei Lv, Xufei Lv, Jiahui Yang +4

Reasoning & Chain-of-Thought Recommendation & Information Retrieval Tool Use & Agents

Search

Linbo Qiao

Research focus

Frequent co-authors

Papers (2)