Lattice AI Research

Research focus

Architecture Design (Transformers, SSMs, MoE) (2)Inference & Quantization (2)Multimodal Models (1)Training Efficiency & Optimization (1)

Frequent co-authors

SiXun Dong (1)Juhua Hu (1)Wei Wen (1)Bradley McDanel (1)

Papers (2)

Apr 6, 2026

China University of Mining and Technology-BeijingApr 6, 2026·also Meta AI, UW

Rethinking Model Efficiency: Multi-Agent Inference with Large Models

Forget scaling laws: a large VLM strategically paired with a smaller model's reasoning tokens can rival the performance of a much larger, monolithic model.

SiXun Dong, Juhua Hu, Steven Li +1

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Multimodal Models

Feb 17, 2026

Bradley McDanel +2Feb 17, 2026·also Meta AI

CLAA: Cross-Layer Attention Aggregation for Accelerating LLM Prefill

Token ranking heuristics for LLM prefill are surprisingly unstable across layers, but simply aggregating attention scores across layers can dramatically improve performance.

Bradley McDanel, Steven Li, Harshit Khaitan

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Search

Steven Li

Research focus

Frequent co-authors

Papers (2)