Shiyi Lan

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Inference & Quantization (2)Architecture Design (Transformers, SSMs, MoE) (1)Natural Language Processing (1)Multimodal Models (1)

Frequent co-authors

Yonggan Fu (2)L. Whalen (1)Lexington Whalen (1)Abhinav Garg (1)

Papers (2)

Jul 7, 2026

NVIDIA2w ago

Nemotron-Labs-Diffusion: A Tri-Mode Language Model Unifying Autoregressive, Diffusion, and Self-Speculation Decoding

Switching between autoregressive and diffusion modes allows Nemotron-Labs-Diffusion to achieve unprecedented throughput and efficiency in language modeling.

Yonggan Fu, L. Whalen, Lexington Whalen +26

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Natural Language Processing

Apr 8, 2026

NVIDIAApr 8, 2026·also HKU, MBZUAI

Fast-dVLM: Efficient Block-Diffusion VLM via Direct Conversion from Autoregressive VLM

Swap out slow, one-token-at-a-time generation in VLMs for a 6x speed boost, without sacrificing quality, using a surprisingly simple direct conversion to block-diffusion decoding.

Shiyi Lan, Yonggan Fu, Jose M. Alvarez +3

Inference & Quantization Multimodal Models Robotics & Embodied AI

Search

Shiyi Lan

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)