Karan Sapra

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Multimodal Models (3)Eval Frameworks & Benchmarks (2)Architecture Design (Transformers, SSMs, MoE) (1)Speech & Audio (1)

Frequent co-authors

Nvidia Amala Sanjay Deshmukh (1)K. Chumachenko (1)Tuomas Rintamaki (1)Matthieu Le (1)

Papers (3)

Apr 27, 2026

NVIDIA4d ago·also Amazon Science

Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence

Multimodal models can now handle audio natively with improved efficiency, achieving state-of-the-art results in complex tasks like document understanding and agentic computer use.

Nvidia Amala Sanjay Deshmukh, K. Chumachenko, Tuomas Rintamaki +200

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Speech & Audio

Mar 14, 2026

NVIDIAMar 14, 2026·also UMD

MMOU: A Massive Multi-Task Omni Understanding and Reasoning Benchmark for Long and Complex Real-World Videos

Current multimodal models are surprisingly bad at understanding long, complex videos, struggling to integrate audio, visual, and text cues even for basic reasoning tasks.

Vatsal Agarwal, Katie Lyons, James Case +6

Eval Frameworks & Benchmarks Multimodal Models Reasoning & Chain-of-Thought

Mar 5, 2026

NVIDIAMar 5, 2026·also AgiBot, Shanghai AI Lab

Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

Current multimodal LLMs choke on long-form video understanding, either forgetting details or getting lost in the timeline, but a new agentic architecture with dynamic memory management offers a promising fix.

Guo Chen, Lidong Lu, Yicheng Liu +19

Eval Frameworks & Benchmarks Multimodal Models Tool Use & Agents

Search

Karan Sapra

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (3)