NVIDIA Research

×Training Efficiency & Optimization

12 papers from NVIDIA Research on Training Efficiency & Optimization

May 3, 2026

NVIDIA2w ago·also TAU

nvPAX: Constrained Optimization for Dynamic Power Allocation in Hierarchical and Multi-Tenant Systems

Hierarchical power allocation in datacenters can achieve near-perfect satisfaction ratios, even with oversubscription, by using a novel three-phase QP/LP optimization policy.

Hadar Sivan, Gil Shabat, Yoel Shkolnisky

Distributed Systems & Hardware Training Efficiency & Optimization

Apr 20, 2026

TimeTrace LabsApr 20, 2026·also NVIDIA

Sonata: A Hybrid World Model for Inertial Kinematics under Clinical Data Scarcity

Sonata outperforms traditional models in clinical kinematic assessments, achieving better fall-risk predictions with a fraction of the parameters.

Blaise Delaney, Salil Patel, Yuji Xing +2

Data Curation & Synthetic Data Training Efficiency & Optimization World Models & Planning

Apr 12, 2026

NVIDIAApr 12, 2026·also Duke, Rochester

LLM-PRISM: Characterizing Silent Data Corruption from Permanent GPU Faults in LLM Training

Even moderate GPU fault rates can catastrophically derail LLM training, depending on the specific hardware datapath and numerical precision format.

Nirmal Saxena, Yanxiang Huang, Philip Shirvani +1

Distributed Systems & Hardware Training Efficiency & Optimization

Apr 9, 2026

NVIDIAApr 9, 2026

Scaling-Aware Data Selection for End-to-End Autonomous Driving Systems

Training autonomous vehicles can be dramatically sped up: MOSAIC achieves state-of-the-art driving performance with 80% less data by intelligently selecting training examples based on scaling laws.

Tolga Dimlioglu, Nadine Chang, Maying Shen +3

Data Curation & Synthetic Data Robotics & Embodied AI Training Efficiency & Optimization

Apr 6, 2026

NVIDIAApr 6, 2026

Batch Loss Score for Dynamic Data Pruning

Forget complex per-sample loss calculations – this simple three-line code injection uses batch loss smoothing to prune 20-50% of training data without sacrificing performance.

Qing Zhou, Bingxuan Zhao, Hongyuan Zhang

Data Curation & Synthetic Data Inference & Quantization Training Efficiency & Optimization

Mar 16, 2026

NVIDIAMar 16, 2026·also Earendil Labs *Core contributor, Proxima, Rezo Therapeutics

Fold-CP: A Context Parallelism Framework for Biomolecular Modeling

Now you can predict the structure of biomolecular assemblies exceeding 30,000 residues, thanks to a new context parallelism framework that shatters previous memory constraints.

Dejun Lin, Simon Chu, Simon K. S. Chu +46

Distributed Systems & Hardware Scientific Discovery & Drug Design Training Efficiency & Optimization

Mar 8, 2026

NVIDIAMar 8, 2026·also Tongji

Scalable Training of Mixture-of-Experts Models with Megatron Core

Training trillion-parameter Mixture-of-Experts models just got a whole lot faster: Megatron Core now achieves >1 PFLOP/GPU on NVIDIA's latest hardware.

Zijie Yan, Hongxiao Bai, Xin Yao +34

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Mar 4, 2026

Mar 4, 2026·also NVIDIA, Michigan State

Projected Hessian Learning: Fast Curvature Supervision for Accurate Machine-Learning Interatomic Potentials

Injecting curvature information into MLIP training via Hessian-vector products achieves the accuracy of full-Hessian training with >24x speedups, opening the door to more efficient and accurate potential energy surface learning.

Austin Rodriguez, Justin S. Smith, Sakib Matin +3

Scientific Discovery & Drug Design Training Efficiency & Optimization

Feb 17, 2026

NVIDIAFeb 17, 2026·also Technion

Spanning the Visual Analogy Space with a Weight Basis of LoRAs

Forget monolithic LoRAs: LoRWeB dynamically mixes a basis set of LoRAs to unlock SOTA generalization in visual analogy tasks.

Hila Manor, Hila Manor, Rinon Gal +6

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models+1

Feb 16, 2026

NVIDIAFeb 16, 2026·also Cornell, EPFL

Scaling Beyond Masked Diffusion Language Models

Uniform-state diffusion models, often overlooked in favor of masked diffusion, surprisingly outperform autoregressive and masked diffusion models on GSM8K when scaled to 1.7B parameters, despite worse perplexity.

Subham Sekhar Sahoo, Jean-Marie Lemercier, Justin Deschenaux +1

Natural Language Processing Scaling Laws & Emergent Abilities Training Efficiency & Optimization

NVIDIAFeb 16, 2026·also D sequence before optimizing the TTT objective Eq. 3. Intuitively

Depth Completion as Parameter-Efficient Test-Time Adaptation

Achieve state-of-the-art depth completion by adapting 3D foundation models at test time with minimal parameter updates, outperforming task-specific encoders that often overfit.

Bingxin Ke, Qunjie Zhou, Jiahui Huang +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Feb 12, 2026

NVIDIAFeb 12, 2026·also UT Austin

Stop Unnecessary Reflection: Training LRMs for Efficient Reasoning with Adaptive Reflection and Length Coordinated Penalty

Smaller reasoning models can achieve both higher accuracy and shorter reasoning chains by adaptively penalizing unnecessary reflections and coordinating length penalties with problem complexity.

Zewei Yu, Yuke Zhu, Haobo Wang

Inference & Quantization Reasoning & Chain-of-Thought Training Efficiency & Optimization

Search

NVIDIA Research