Song Han

Papers on Lattice

Total citations

Topics

h-index

Research focus

Architecture Design (Transformers, SSMs, MoE) (2)Inference & Quantization (2)Multimodal Models (1)Speech & Audio (1)Reasoning & Chain-of-Thought (1)

Frequent co-authors

Nvidia Amala Sanjay Deshmukh (1)K. Chumachenko (1)Tuomas Rintamaki (1)Matthieu Le (1)

Papers (3)

Apr 27, 2026

NVIDIAApr 27, 2026·also Amazon Science, Microsoft Research, UW, Music X Lab +1

Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence

Multimodal models can now achieve state-of-the-art performance in real-world tasks like document understanding and audio-video comprehension with significantly reduced inference latency thanks to novel token-reduction techniques.

Nvidia Amala Sanjay Deshmukh, K. Chumachenko, Tuomas Rintamaki +208

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Speech & Audio

Apr 6, 2026

Weian Mao +9Apr 6, 2026·also Ministry of Education, SEU

TriAttention: Efficient Long Reasoning with Trigonometric KV Compression

LLMs can achieve 2.5x higher throughput and 10.7x KV memory reduction in long-context reasoning by compressing the KV cache using trigonometric functions derived from pre-RoPE query/key vector distributions.

Weian Mao, Weian Mao, Xi Lin +7

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Reasoning & Chain-of-Thought

Mar 30, 2026

Jack Cook +11Mar 30, 2026·also MIT CSAIL

Adaptive Block-Scaled Data Types

By cleverly repurposing an unused sign bit, IF4 achieves superior quantization performance compared to NVFP4 without increasing bit-width.

Jack Cook, Jack Cook, Hyemin S. Lee +9

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

Search

Song Han

Research focus

Frequent co-authors

Papers (3)