Lattice AI Research

Research focus

Distributed Systems & Hardware (2)Architecture Design (Transformers, SSMs, MoE) (1)Inference & Quantization (1)Training Efficiency & Optimization (1)

Frequent co-authors

Jacob Wahlgren (1)Andong Hu (1)Roger Pearce (1)Maya Gokhale (1)

Papers (2)

May 6, 2026

Jacob Wahlgren +4May 6, 2026

Communication Offloading on SmartNIC DPUs: A Quantitative Approach

Offloading communication to SmartNIC DPUs can speed up host-dominated workloads by 1.55x, but the lack of Direct Cache Access creates a massive DRAM bottleneck.

Jacob Wahlgren, Andong Hu, Roger Pearce +2

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware

Apr 9, 2026

Gabin Schieffer +6Apr 9, 2026·also Shaanxi Normal University

Taming GPU Underutilization via Static Partitioning and Fine-grained CPU Offloading

Static GPU partitioning alone can't solve underutilization, but fine-grained CPU offloading over Nvlink-C2C can bridge the gap.

Gabin Schieffer, Gabin Schieffer, Ruimin Shi +4

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

Search

Ivy Peng

Research focus

Frequent co-authors

Papers (2)