Song Han

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Multimodal Models (3)Inference & Quantization (3)Architecture Design (Transformers, SSMs, MoE) (2)Reasoning & Chain-of-Thought (2)

Frequent co-authors

Pavlo Molchanov (2)Ping Luo (2)Enze Xie (2)Nvidia Amala Sanjay Deshmukh (1)

Papers (5)

Apr 27, 2026

NVIDIA4d ago·also Amazon Science

Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence

Multimodal models can now handle audio natively with improved efficiency, achieving state-of-the-art results in complex tasks like document understanding and agentic computer use.

Nvidia Amala Sanjay Deshmukh, K. Chumachenko, Tuomas Rintamaki +200

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Speech & Audio

Apr 14, 2026

Yecheng Wu +22w ago

Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation

Forget live teacher inference servers: Lightning OPD unlocks 4x faster LLM post-training by precomputing teacher log-probabilities, without sacrificing performance on complex reasoning tasks.

Yecheng Wu, Song Han, Hai Cai

Inference & Quantization Reasoning & Chain-of-Thought Training Efficiency & Optimization

Apr 8, 2026

3w ago·also NVIDIA, HKU

FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling

Scaling diffusion model alignment just got a whole lot cheaper: Sol-RL uses FP4 rollouts to accelerate training convergence by up to 4.64x without sacrificing performance.

Yitong Li, Junsong Chen, Shuchen Xue +8

Multimodal Models RLHF & Preference Learning Training Efficiency & Optimization

NVIDIA3w ago·also HKU, MBZUAI

Fast-dVLM: Efficient Block-Diffusion VLM via Direct Conversion from Autoregressive VLM

Swap out slow, one-token-at-a-time generation in VLMs for a 6x speed boost, without sacrificing quality, using a surprisingly simple direct conversion to block-diffusion decoding.

Chengyue Wu, Shiyi Lan, Yonggan Fu +9

Inference & Quantization Multimodal Models Robotics & Embodied AI

Apr 6, 2026

Weian Mao +133w ago

TriAttention: Efficient Long Reasoning with Trigonometric KV Compression

LLMs can achieve 2.5x higher throughput and 10.7x KV memory reduction in long-context reasoning by compressing the KV cache using trigonometric functions derived from pre-RoPE query/key vector distributions.

Weian Mao, Weian Mao, Xi Lin +11

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Reasoning & Chain-of-Thought

Search

Song Han

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (5)