Nave Assaf

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Architecture Design (Transformers, SSMs, MoE) (3)Inference & Quantization (2)Multimodal Models (1)Speech & Audio (1)

Frequent co-authors

Pavlo Molchanov (3)Ran Zilberstein (3)Tomer Asida (3)Shubham Pachori (2)

Papers (3)

Apr 27, 2026

NVIDIAApr 27, 2026·also Amazon Science, Microsoft Research, UW, Music X Lab +1

Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence

Multimodal models can now achieve state-of-the-art performance in real-world tasks like document understanding and audio-video comprehension with significantly reduced inference latency thanks to novel token-reduction techniques.

Nvidia Amala Sanjay Deshmukh, K. Chumachenko, Tuomas Rintamaki +209

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Speech & Audio

Apr 14, 2026

AI2Apr 14, 2026·also NVIDIA, BIT, NUDT, Waterloo

Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Nemotron 3 Super proves you can achieve comparable accuracy to existing 120B models, but with significantly higher inference throughput, by combining Mamba, Attention, and Mixture-of-Experts.

Aakshita Chandiramani, Aaron Blakeman, Abdullahi Olaoye +452

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Tool Use & Agents

Feb 12, 2026

NVIDIAFeb 12, 2026·also Technion

Extending Puzzle for Mixture-of-Experts Reasoning Models with Application to GPT-OSS Acceleration

You can slash LLM inference costs without sacrificing quality by strategically pruning experts, quantizing, and swapping full attention for windowed attention, as demonstrated on gpt-oss-120B.

A. Bercovich, Nir Ailon, Vladimir Anisimov +21

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Open-Source Models & Weights

Search

Nave Assaf

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (3)