Lattice AI Research

Research focus

Distributed Systems & Hardware (2)Training Efficiency & Optimization (2)Multimodal Models (1)Architecture Design (Transformers, SSMs, MoE) (1)

Frequent co-authors

Yashaswi Karnati (1)Kamran Jafari (1)Akash Mehra (1)Li Ding (1)

Papers (2)

May 26, 2026

Yashaswi Karnati +113w ago

Heterogeneous Parallelism for Multimodal Large Language Model Training

Stop forcing your multimodal encoders to inherit suboptimal LLM parallelism strategies: heterogeneous parallelism unlocks up to 49% higher TFLOPS/GPU.

Yashaswi Karnati, Kamran Jafari, Akash Mehra +9

Distributed Systems & Hardware Multimodal Models Training Efficiency & Optimization

Mar 8, 2026

NVIDIAMar 8, 2026·also Tongji

Scalable Training of Mixture-of-Experts Models with Megatron Core

Training trillion-parameter Mixture-of-Experts models just got a whole lot faster: Megatron Core now achieves >1 PFLOP/GPU on NVIDIA's latest hardware.

Zijie Yan, Hongxiao Bai, Dennis Liu +32

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Shifang Xu

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)

Search

Shifang Xu

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)