Pavlo Molchanov

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Architecture Design (Transformers, SSMs, MoE) (4)Inference & Quantization (4)Multimodal Models (2)Speech & Audio (1)

Frequent co-authors

Nave Assaf (3)Ran Zilberstein (3)Tomer Asida (3)Song Han (2)

Papers (5)

Apr 27, 2026

NVIDIA4d ago·also Amazon Science

Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence

Multimodal models can now handle audio natively with improved efficiency, achieving state-of-the-art results in complex tasks like document understanding and agentic computer use.

Nvidia Amala Sanjay Deshmukh, K. Chumachenko, Tuomas Rintamaki +200

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Speech & Audio

Apr 21, 2026

Zhenbang Du +81w ago

$R^2$-dLLM: Accelerating Diffusion Large Language Models via Spatio-Temporal Redundancy Reduction

Ditch the slow lane: $R^2$-dLLM turbocharges diffusion language models by slashing decoding steps by up to 75% without sacrificing quality.

Zhenbang Du, Kejing Xia, Xinrui Zhong +6

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Natural Language Processing

Apr 14, 2026

AI22w ago·also NVIDIA, UT Austin, Waterloo, Xiaomi Robotics +1

Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Nemotron 3 Super proves you can achieve comparable accuracy to existing 120B models, but with significantly higher inference throughput, by combining Mamba, Attention, and Mixture-of-Experts.

Aakshita Chandiramani, Aaron Blakeman, Abdullahi Olaoye +481

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Tool Use & Agents

Apr 8, 2026

NVIDIA3w ago·also HKU, MBZUAI

Fast-dVLM: Efficient Block-Diffusion VLM via Direct Conversion from Autoregressive VLM

Swap out slow, one-token-at-a-time generation in VLMs for a 6x speed boost, without sacrificing quality, using a surprisingly simple direct conversion to block-diffusion decoding.

Chengyue Wu, Shiyi Lan, Yonggan Fu +9

Inference & Quantization Multimodal Models Robotics & Embodied AI

Feb 12, 2026

NVIDIAFeb 12, 2026·also Technion

Extending Puzzle for Mixture-of-Experts Reasoning Models with Application to GPT-OSS Acceleration

You can slash LLM inference costs without sacrificing quality by strategically pruning experts, quantizing, and swapping full attention for windowed attention, as demonstrated on gpt-oss-120B.

A. Bercovich, Nir Ailon, Vladimir Anisimov +21

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Open-Source Models & Weights

Search

Pavlo Molchanov

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (5)