Itay Levy

NVIDIA

NVIDIA Research

Papers on Lattice

Total citations

Topics

h-index

Research focus

Architecture Design (Transformers, SSMs, MoE) (1)Inference & Quantization (1)Open-Source Models & Weights (1)

Frequent co-authors

A. Bercovich (1)Nir Ailon (1)Vladimir Anisimov (1)Tomer Asida (1)

Papers (1)

Feb 12, 2026

NVIDIAFeb 12, 2026·also Technion

Extending Puzzle for Mixture-of-Experts Reasoning Models with Application to GPT-OSS Acceleration

You can slash LLM inference costs without sacrificing quality by strategically pruning experts, quantizing, and swapping full attention for windowed attention, as demonstrated on gpt-oss-120B.

A. Bercovich, Nir Ailon, Vladimir Anisimov +21

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Open-Source Models & Weights

Search

Itay Levy

Research focus

Frequent co-authors

Papers (1)