March 11 – March 18, 2026

Training Efficiency & Optimization - Weekly Roundup

100 papers published across 6 labs.

21% acceleration

Selected Labs publishing this week

Tsinghua AI4 AI21 NVIDIA1 MIT CSAIL1 Amazon Science1

Top Papers

Mar 18, 2026

Lars Bartels +42w ago

Real-Time Online Learning for Model Predictive Control using a Spatio-Temporal Gaussian Process Approximation

Achieve real-time online learning for model predictive control with a novel spatio-temporal Gaussian Process approximation that maintains constant computational complexity.

Lars Bartels, Amon Lahr, Andrea Carron +2

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

2w ago

AdaMuS: Adaptive Multi-view Sparsity Learning for Dimensionally Unbalanced Data

AdaMuS overcomes the bias towards high-dimensional data in multi-view learning by adaptively pruning redundant parameters and sparsely fusing views, leading to improved performance on dimensionally unbalanced data.

Cai Xu, Changhao Sun, Ziyu Guan

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Training Efficiency & Optimization

2w ago

KA2L: A Knowledge-Aware Active Learning Framework for LLMs

LLMs can be actively trained to master specific knowledge domains with 50% less data and computation by focusing on what they *don't* know, not what they already do.

Haoxuan Yin, Bojian Liu, Chen Tang +3

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

2w ago

Exploring parameter-efficient fine-tuning (PEFT) of billion-parameter vision models with QLoRA and DoRA: insights into generalization for limited-data image classification under a 98:1 test-to-train regime

Even with a 98:1 test-to-train ratio, PEFT methods like QLoRA can unlock surprisingly strong generalization from billion-parameter vision models for agricultural image classification, suggesting underfitting is the bigger risk than overfitting.

Haiyu Yang, Sumit Sharma, Enhong Liu +1

Computer Vision Multimodal Models Training Efficiency & Optimization

Charuka Herath +32w ago

QuantFL: Sustainable Federated Learning for Edge IoT via Pre-Trained Model Quantisation

Pre-trained models unlock surprisingly aggressive quantization in federated learning, slashing communication costs by 40% without sacrificing accuracy on MNIST and CIFAR-100.

Charuka Herath, Yogachandran Rahulamathavan, Varuna De Silva +1

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

All Papers (100)

Mar 18, 2026

Lars Bartels +42w ago

Real-Time Online Learning for Model Predictive Control using a Spatio-Temporal Gaussian Process Approximation

Achieve real-time online learning for model predictive control with a novel spatio-temporal Gaussian Process approximation that maintains constant computational complexity.

Lars Bartels, Amon Lahr, Andrea Carron +2

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

2w ago

AdaMuS: Adaptive Multi-view Sparsity Learning for Dimensionally Unbalanced Data

Cai Xu, Changhao Sun, Ziyu Guan

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Training Efficiency & Optimization

2w ago

KA2L: A Knowledge-Aware Active Learning Framework for LLMs

LLMs can be actively trained to master specific knowledge domains with 50% less data and computation by focusing on what they *don't* know, not what they already do.

Haoxuan Yin, Bojian Liu, Chen Tang +3

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

2w ago

Haiyu Yang, Sumit Sharma, Enhong Liu +1

Computer Vision Multimodal Models Training Efficiency & Optimization

Charuka Herath +32w ago

QuantFL: Sustainable Federated Learning for Edge IoT via Pre-Trained Model Quantisation

Pre-trained models unlock surprisingly aggressive quantization in federated learning, slashing communication costs by 40% without sacrificing accuracy on MNIST and CIFAR-100.

Charuka Herath, Yogachandran Rahulamathavan, Varuna De Silva +1

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

2w ago·also Tsinghua AI, PKU, UCLA

Beyond Outliers: A Data-Free Layer-wise Mixed-Precision Quantization Approach Driven by Numerical and Structural Dual-Sensitivity

Achieve better compression in low-bit quantization by considering not just numerical sensitivity, but also the structural role of each layer.

Hengyuan Zhang, Xinrong Chen, Zunhai Su +10

Inference & Quantization Training Efficiency & Optimization

Qubit Pharmaceuticals2w ago·also Qubit Pharmaceuticals Inc, Sorbonne

The Convergence Frontier: Integrating Machine Learning and High Performance Quantum Computing for Next-Generation Drug Discovery

Quantum computers could finally unlock the full potential of machine learning for drug discovery by directly generating the quantum chemistry data that classical computers struggle to produce.

Narjes Ansari, César Feniou, C'esar Feniou +17

Distributed Systems & Hardware Scientific Discovery & Drug Design Training Efficiency & Optimization

2w ago·also UTS

Learning Evolving Preferences: A Federated Continual Framework for User-Centric Recommendation

Federated recommendation systems can now better adapt to evolving user preferences without sacrificing privacy, thanks to a novel approach that retains historical knowledge and transfers insights between similar users.

Chunxu Zhang, Zhi Xue, Guodong Long +2

Distributed Systems & Hardware Recommendation & Information Retrieval Training Efficiency & Optimization

Chengwei Wei +42w ago

InfoDensity: Rewarding Information-Dense Traces for Efficient Reasoning

LLMs can achieve state-of-the-art reasoning accuracy with significantly fewer tokens by rewarding intermediate reasoning steps that maximize information gain and maintain monotonic progress.

Chengwei Wei, Jung-jae Kim, Longyin Zhang +2

Reasoning & Chain-of-Thought RLHF & Preference Learning Training Efficiency & Optimization

Raghavv Goel +42w ago

Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing

LLMs can predict multiple tokens in parallel without any training, simply by cleverly probing their embedding space with dynamically generated mask tokens.

Raghavv Goel, Mukul Gagrani, Mingu Lee +2

Inference & Quantization Natural Language Processing Training Efficiency & Optimization

AI22w ago

Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

Pruning vision tokens across both the ViT and LLM can yield a 62% efficiency boost in video VLMs with minimal performance loss, and without complex text conditioning.

Jianrui Zhang, Winson Han, Ranjay Krishna +3

Inference & Quantization Multimodal Models Training Efficiency & Optimization

Romil Imtiaz +12w ago

ResNet-50 with Class Reweighting and Anatomy-Guided Temporal Decoding for Gastrointestinal Video Analysis

Class reweighting and anatomy-guided decoding can substantially improve the performance of video analysis pipelines for rare events in imbalanced gastrointestinal datasets.

Romil Imtiaz, Dimitris K. Iakovidis

Computer Vision Training Efficiency & Optimization

Yuxiang Mei +42w ago

Zipper-LoRA: Dynamic Parameter Decoupling for Speech-LLM based Multilingual Speech Recognition

Stop struggling with the stability-plasticity dilemma in multilingual Speech-LLMs: Zipper-LoRA dynamically disentangles LoRA updates to boost low-resource ASR without sacrificing cross-lingual transfer.

Yuxiang Mei, Delai Qiu, Shengping Liu +2

Multimodal Models Speech & Audio Training Efficiency & Optimization

Yihong Chen2w ago

Attention Sinks Induce Gradient Sinks

Attention sinks aren't just a forward-pass phenomenon; they actively warp the training landscape by creating "gradient sinks" that drive massive activations.

Yihong Chen

Architecture Design (Transformers, SSMs, MoE)Interpretability & Mechanistic Interp Training Efficiency & Optimization

Ahmet Kaplan2w ago

Auto-Unrolled Proximal Gradient Descent: An AutoML Approach to Interpretable Waveform Optimization

Achieve near-optimal waveform optimization with 98.8% spectral efficiency using a 5-layer, AutoML-tuned unrolled proximal gradient descent network trained on just 100 samples.

Ahmet Kaplan

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

2w ago

Joint Degradation-Aware Arbitrary-Scale Super-Resolution for Variable-Rate Extreme Image Compression

Forget training separate models for each compression level; this framework achieves state-of-the-art extreme image compression with flexible bitrate control using a single diffusion-based arbitrary-scale super-resolution model.

Xinning Chai, Zhengxue Cheng, Rong Xie +1

Computer Vision Inference & Quantization Training Efficiency & Optimization

2w ago·also School of Life Science and Technology, Shenzhen University of Advanced Technology, Tencent AI

SCALE:Scalable Conditional Atlas-Level Endpoint transport for virtual cell perturbation prediction

Virtual cell perturbation prediction gets a 12x speedup in pretraining and a 12% boost in biological fidelity with SCALE, a new foundation model that prioritizes scalable infrastructure and biologically faithful evaluation.

Shuizhou Chen, Lang Yu, Kedu Jin +8

Scientific Discovery & Drug Design Training Efficiency & Optimization

2w ago·also Shenzhen University

TRiMS: Real-Time Tracking of Minimal Sufficient Length for Efficient Reasoning via RL

LLMs can slash over 80% of their chain-of-thought tokens with a minor accuracy boost, thanks to a new RL-based method that targets the "Minimal Sufficient Length" of reasoning.

Tingcheng Bian, Jinchang Luo, Mingquan Cheng +5

Reasoning & Chain-of-Thought Training Efficiency & Optimization

Jiashun Liu +12w ago

Complementary Reinforcement Learning

RL agents can learn far more efficiently by dynamically distilling and leveraging past experiences that co-evolve with the agent's growing capabilities.

Jiashun Liu, Bo Zheng

RLHF & Preference Learning Tool Use & Agents Training Efficiency & Optimization

Zhengze Xiao +42w ago·also H6 and C

A Survey of Neural Network Variational Monte Carlo from a Computing Workload Characterization Perspective

NNVMC's promise for solving quantum many-body problems is currently bottlenecked by surprisingly mundane issues: low-intensity elementwise operations and data movement on GPUs.

Zhengze Xiao, Xuanzhe Ding, Yuyang Lou +2

Distributed Systems & Hardware Scientific Discovery & Drug Design Training Efficiency & Optimization

Yan Liang +42w ago

Trust the Unreliability: Inward Backward Dynamic Unreliability Driven Coreset Selection for Medical Image Classification

Counterintuitively, the most *unreliable* samples in medical imaging datasets—those with fluctuating confidence and frequent forgetting during training—are the *most* informative for building accurate decision boundaries.

Yan Liang, Ziyuan Yang, Zhuxin Lei +2

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

Tommaso Giovannelli +22w ago

Stochastic set-valued optimization and its application to robust learning

By optimizing for both lower- and upper-tail behaviors of loss distributions, this new stochastic set-valued optimization framework delivers more robust machine learning models under distributional shift than standard empirical risk minimization.

Tommaso Giovannelli, Jingfu Tan, Luis Nunes Vicente

Red-Teaming & Adversarial Robustness Training Efficiency & Optimization

2w ago

ChopGrad: Pixel-Wise Losses for Latent Video Diffusion via Truncated Backpropagation

Training video diffusion models with pixel-wise losses just got a whole lot cheaper: ChopGrad reduces memory complexity from linear to constant with video length.

Dmitriy Rivkin, Parker Ewen, Lili Gao +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Arpit Singh Gautam +12w ago

RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

Forget painstakingly tuning quantization for each LLM – RAMP learns a quantization policy that generalizes across architectures, often outperforming target-specific training.

Arpit Singh Gautam, Saurabh Jha

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

Wenhan Cao +22w ago

One-Step Sampler for Boltzmann Distributions via Drifting

Drifting offers a surprisingly effective way to distill iterative Boltzmann sampling into a single forward pass, even with unknown normalization constants.

Wenhan Cao, Keyu Yan, Lin Zhao

Scientific Discovery & Drug Design Training Efficiency & Optimization

University of Pavia2w ago·also Euler Institute

Translation Invariance of Neural Operators for the FitzHugh-Nagumo Model

Convolutional Neural Operators (CNOs) surprisingly excel at capturing translated dynamics in the FitzHugh-Nagumo model, despite other architectures achieving lower training error or faster inference.

Luca Pellegrini

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

University of Alabama at Birmingham2w ago

Binary Latent Protein Fitness Landscapes for Quantum Annealing Optimization

Quantum annealing could soon accelerate protein engineering: Q-BIOLAT formulates protein fitness as a QUBO problem, directly compatible with emerging quantum annealing hardware.

Truong-Son Hy, T. Hy

Scientific Discovery & Drug Design Training Efficiency & Optimization

Leonardo Del Grande +22w ago

A Dual Certificate Approach to Sparsity in Infinite-Width Shallow Neural Networks

Infinite neural nets can be sparse, and this paper proves it, showing that total variation regularization provably yields sparse solutions in infinite-width shallow ReLU networks, with sparsity bounds tied to the geometry of the data.

Leonardo Del Grande, Christoph Brune, Marcello Carioni

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Ivor J. A. Simpson +12w ago

Structured SIR: Efficient and Expressive Importance-Weighted Inference for High-Dimensional Image Registration

Ditch the overconfident posteriors: Structured SIR offers a memory-efficient way to capture complex, multi-modal uncertainty in high-dimensional image registration, outperforming variational inference.

Ivor J. A. Simpson, Neill D. F. Campbell

Computer Vision Training Efficiency & Optimization

Caren Hasler2w ago

Consistency of the $k$-Nearest Neighbor Regressor under Complex Survey Designs

k-NN regression, a classic non-parametric method, can now be rigorously applied to complex survey data, expanding its applicability to a wider range of real-world statistical problems.

Caren Hasler

Training Efficiency & Optimization

2w ago·also Shenzhen Institute of Advanced

Baguan-TS: A Sequence-Native In-Context Learning Model for Time Series Forecasting with Covariates

Ditch the feature engineering: Baguan-TS lets you use raw time series sequences directly for in-context forecasting, outperforming traditional methods.

Linxiao Yang, Xue Jiang, Gezheng Xu +9

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Dibakar Sigdel2w ago

The Phasor Transformer: Resolving Attention Bottlenecks on the Unit Circle

Ditch quadratic attention bottlenecks: this new transformer variant achieves competitive time-series forecasting with O(N log N) complexity by representing sequence states on a unit circle.

Dibakar Sigdel

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

2w ago

M2P: Improving Visual Foundation Models with Mask-to-Point Weakly-Supervised Learning for Dense Point Tracking

By cleverly using readily available video segmentation masks, this method boosts DINOv2's point tracking performance by over 14% – a surprisingly effective way to inject temporal awareness into static image-pretrained models.

Qiangqiang Wu, Tianyu Yang, Jia Wan +3

Computer Vision Multimodal Models Training Efficiency & Optimization

Tsinghua AI2w ago

Generative Replica-Exchange: A Flow-based Framework for Accelerating Replica Exchange Simulations

Ditch the temperature ladder: Generative Replica Exchange (GREX) uses normalizing flows to generate high-temperature configurations on-demand, slashing the computational cost of replica exchange simulations.

Shengjie Huang, Sijie Yang, Jianqiao Yi +5

Scientific Discovery & Drug Design Training Efficiency & Optimization

Zechang Xiong +102w ago

Beyond Forced Modality Balance: Intrinsic Information Budgets for Multimodal Learning

Instead of forcing modalities to imitate each other, IIBalance lets each modality contribute according to its intrinsic information budget, leading to better multimodal fusion.

Zechang Xiong, Zechang Xiong, Da Li +8

Multimodal Models Training Efficiency & Optimization

NVIDIA2w ago

Generative Control as Optimization: Time Unconditional Flow Matching for Adaptive and Robust Robotic Control

Ditch fixed compute budgets: this new flow-matching method for robotic control adaptively allocates computation, speeding up simple tasks and focusing on complex ones.

Zunzhe Zhang, Runhan Huang, R. Huang +4

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

H. Haynes2w ago

Adaptive Domain Models: Bayesian Evolution, Warm Rotation, and Principled Training for Geometric and Neuromorphic AI

Forget training behemoths: ADMs slash memory overhead to just twice the inference footprint while guaranteeing geometric correctness and continuous adaptation.

H. Haynes

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Panuganti Chirag Sai +92w ago

ReLMXEL: Adaptive RL-Based Memory Controller with Explainable Energy and Latency Optimization

Achieve significant latency and energy savings in memory systems with an RL-based controller that also provides insights into *why* its decisions are optimal.

Panuganti Chirag Sai, Panuganti Chirag Sai, Gandholi Sarat +7

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Sohaib Errabii +52w ago

KANtize: Exploring Low-bit Quantization of Kolmogorov-Arnold Networks for Efficient Inference

KANs get a 50x BitOps reduction without accuracy loss by quantizing their B-splines down to 2-3 bits and using lookup tables.

Sohaib Errabii, Sohaib Errabii, Olivier Sentieys +3

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

2w ago·also CAS, Northwestern

TimeAPN: Adaptive Amplitude-Phase Non-Stationarity Normalization for Time Series Forecasting

By explicitly modeling and predicting non-stationary factors in both time and frequency domains, TimeAPN significantly boosts the accuracy of long-term time series forecasting, outperforming existing normalization techniques.

Jialiang Tang, Siwei Yu, Baosheng Yu +2

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Yi Yu +62w ago·also Fudan

Lightweight Adaptation for LLM-based Technical Service Agent: Latent Logic Augmentation and Robust Noise Reduction

Achieve SOTA LLM alignment in complex technical domains with a fraction of the compute by distilling knowledge into smaller models using a hybrid reward mechanism and targeted data augmentation.

Yi Yu, Junzhuo Ma, Chenghuang Shen +4

Natural Language Processing Tool Use & Agents Training Efficiency & Optimization

Alexander D. Goldie +192w ago

Procedural Generation of Algorithm Discovery Tasks in Machine Learning

Stop benchmarking algorithm discovery on the same old saturated datasets: DiscoGen offers millions of fresh, configurable tasks to truly test your ADA.

Alexander D. Goldie, Zilin Wang, Adrian Hayler +17

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Training Efficiency & Optimization

David Millard +42w ago·also Manuscript received xxx xx

Federated Distributional Reinforcement Learning with Distributional Critic Regularization

By federating distributional critics and using a Wasserstein barycenter trust region, TR-FedDistRL avoids the dangerous "mean-smearing" that can make federated RL unsafe in critical applications.

David Millard, Cecilia Alm, Rashid Ali +2

Distributed Systems & Hardware Training Efficiency & Optimization

Zhongzhu Zhou +82w ago·also BUPT

CARE: Covariance-Aware and Rank-Enhanced Decomposition for Enabling Multi-Head Latent Attention

Forget SVD: CARE aligns low-rank attention approximations with input activations, boosting accuracy up to 1.7x and slashing perplexity by 215x when converting models to multi-head latent attention.

Zhongzhu Zhou, Fengxiang Bie, Ziyan Chen +6

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

2w ago

Symmetry-Reduced Physics-Informed Learning of Tensegrity Dynamics

Exploiting geometric symmetries in tensegrity structures slashes computational cost and boosts accuracy in physics-informed neural networks.

Robotics & Embodied AI Scientific Discovery & Drug Design Training Efficiency & Optimization

Ting Gao +52w ago

Flow Matching Policy with Entropy Regularization

Ditch slow diffusion policies: FMER achieves 7x faster training and superior performance in sparse reward RL by using flow matching and a tractable entropy regularization term.

Ting Gao, Stavros Orfanoudakis, Nan Lin +3

Robotics & Embodied AI Training Efficiency & Optimization

Indian Statistical Institute2w ago

rSDNet: Unified Robust Neural Learning against Label Noise and Adversarial Attacks

Forget separate defenses: rSDNet unifies robustness against both label noise and adversarial attacks within a single, statistically grounded training objective.

Suryasis Jana, Abhik Ghosh

Red-Teaming & Adversarial Robustness Training Efficiency & Optimization

Obvious Research2w ago·also Sorbonne

FrescoDiffusion: 4K Image-to-Video with Prior-Regularized Tiled Diffusion

Achieve 4K image-to-video generation with diffusion models without training by cleverly fusing tiled denoising with a low-resolution latent prior, balancing detail and global coherence.

Hugo Caselles-Dupré, Mathis Koroglu, Guillaume Jeanneret +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

2w ago

CLeAN: Continual Learning Adaptive Normalization in Dynamic Environments

A simple adaptive normalization technique can significantly improve continual learning performance on tabular data by mitigating catastrophic forgetting in dynamic environments.

Isabella Marasco, Davide Evangelista, Elena Loli Piccolomini +1

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Manuel Barusco +32w ago

AdapTS: Lightweight Teacher-Student Approach for Multi-Class and Continual Visual Anomaly Detection

Achieve state-of-the-art anomaly detection in multi-class and continual learning scenarios with AdapTS, a teacher-student framework that slashes memory overhead by up to 149x compared to existing methods.

Manuel Barusco, Davide Dalle Pezze, Francesco Borsatti +1

Computer Vision Inference & Quantization Training Efficiency & Optimization

Roy Henha Eyono +42w ago

Inhibitory normalization of error signals improves learning in neural circuits

Normalizing error signals, not just activations, is the key to unlocking the benefits of inhibition-mediated normalization for learning in neural networks.

Roy Henha Eyono, Daniel Levenstein, Arna Ghosh +2

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

MIT CSAIL2w ago

Rapid Neural Network Prediction of Linear Block Copolymer Free Energies

Neural networks can accurately predict polymer free energies, even when traditional methods like Bennett Acceptance Ratio fail due to poor phase-space overlap.

Ian Chen, Alfredo Alexander-Katz

Scientific Discovery & Drug Design Training Efficiency & Optimization

Xingxing Xie +32w ago

Does YOLO Really Need to See Every Training Image in Every Epoch?

YOLO can learn faster and better by strategically skipping redundant images during training, achieving a 1.43x speedup and improved accuracy with a new Anti-Forgetting Sampling Strategy.

Xingxing Xie, Jiahua Dong, Junwei Han +1

Computer Vision Training Efficiency & Optimization

Dalhousie University2w ago

CodeGreen: Towards Improving Precision and Portability in Software Energy Measurement

Finally, a software energy profiler achieves both high accuracy and cross-platform portability, enabling practical algorithmic energy optimization across diverse languages and hardware.

Saurabhsingh Rajput, Tushar Sharma

Code Generation & Program Synthesis Distributed Systems & Hardware Training Efficiency & Optimization

Xinze Li +42w ago

S-VGGT: Structure-Aware Subscene Decomposition for Scalable 3D Foundation Models

By reorganizing 3D scenes into structurally-aware subscenes, S-VGGT offers a parallel geometric bridge for efficient processing, slashing global attention costs without compromising reconstruction fidelity.

Xinze Li, Pengxu Chen, Yiyuan Wang +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

2w ago

Beyond Muon: MUD (MomentUm Decorrelation) for Faster Transformer Training

Ditch the polar decomposition: MUD offers a surprisingly simple and efficient alternative for momentum whitening, speeding up transformer training by up to 50% compared to AdamW and Muon.

Ben S. Southworth, Stephen Thomas

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Computational Neuroscience Unit2w ago·also Ospedale Santa Lucia, Sheffield

Unified Policy Value Decomposition for Rapid Adaptation

Achieve zero-shot adaptation to new tasks in complex control environments by learning a shared low-dimensional goal embedding that unifies policy and value function representations.

Cristiano Capone, Luca Falorsi, Andrea Ciardiello +1

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

University2w ago

Motion-Adaptive Temporal Attention for Lightweight Video Generation with Stable Diffusion

Achieve competitive video generation with Stable Diffusion using only 2.9% additional parameters by adapting temporal attention based on motion content, outperforming methods with explicit temporal consistency losses.

Rui Hong, Shuxue Quan

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Amazon Science2w ago

Learning When to Attend: Conditional Memory Access for Long-Context LLMs

LLMs can maintain performance while skipping global attention for 80% of tokens, slashing compute costs and memory footprint in long-context scenarios.

Sakshi Choudhary, Aditya Chattopadhyay, Luca Zancato +4

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Nicola J. Müller +42w ago

Per-Domain Generalizing Policies: On Learning Efficient and Robust Q-Value Functions (Extended Version with Technical Appendix)

Q-value policies, traditionally outperformed by state-value policies in planning, can surpass them with the right regularization, offering a faster alternative for policy evaluation.

Nicola J. Müller, Moritz Oster, Isabel Valera +2

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

2w ago

Anisotropic Permeability Tensor Prediction from Porous Media Microstructure via Physics-Informed Progressive Transfer Learning with Hybrid CNN-Transformer

Predicting permeability tensors from microstructure images just got 33% more accurate thanks to a physics-informed CNN-Transformer that learns faster and generalizes better via pretraining and differentiable constraints.

Mohammad Nooraiepour

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

2w ago

Mirror Descent on Riemannian Manifolds

Mirror Descent, a workhorse of large-scale optimization, now has a Riemannian generalization with convergence guarantees, opening doors to efficient optimization on curved spaces.

Jiaxin Jiang, Lei Shi, Jiyuan Tan

Training Efficiency & Optimization

Zirui Gong +72w ago

ARES: Scalable and Practical Gradient Inversion Attack in Federated Learning through Activation Recovery

Even without architectural modifications, a new gradient inversion attack, ARES, can reconstruct high-fidelity training samples in federated learning, exposing a significant privacy risk.

Zirui Gong, Leo Yu Zhang, Yanjun Zhang +5

Constitutional AI & AI Ethics Distributed Systems & Hardware Red-Teaming & Adversarial Robustness+1

Podakanti Satyajith Chary +12w ago

Differential Attention-Augmented BiomedCLIP with Asymmetric Focal Optimization for Imbalanced Multi-Label Video Capsule Endoscopy Classification

Differential attention and asymmetric loss functions can significantly improve the performance of BiomedCLIP on highly imbalanced video classification tasks like identifying rare pathologies in video capsule endoscopy.

Podakanti Satyajith Chary, Nagarajan Ganapathy

Computer Vision Multimodal Models Training Efficiency & Optimization

2w ago

WINFlowNets: Warm-up Integrated Networks Training of Generative Flow Networks for Robotics and Machine Fault Adaptation

By co-training flow and retrieval networks, WINFlowNets eliminates the need for pre-training, unlocking CFlowNets for dynamic robotic environments where data is scarce.

Zahin Sufiyan, Zahin Sufiyan, Shadan Golestan +7

Robotics & Embodied AI Training Efficiency & Optimization

Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU)2w ago·also LLNL

Automated Grammar-based Algebraic Multigrid Design With Evolutionary Algorithms

Genetic programming can discover unconventional multigrid cycles that outperform hand-tuned methods, suggesting automated algorithm design can unlock untapped performance in classical numerical solvers.

Dinesh Parthasarathy, Wayne Mitchell, Arjun Gambhir +2

Code Generation & Program Synthesis Scientific Discovery & Drug Design Training Efficiency & Optimization

Angen Ye +232w ago

GigaWorld-Policy: An Efficient Action-Centered World--Action Model

Robots can now plan 9x faster and achieve significantly higher success rates by decoupling action prediction from video generation in World-Action Models.

Angen Ye, Boyuan Wang, Chaojun Ni +21

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

S. Asghari +92w ago

Efficient Exploration at Scale

Online RLHF can match the performance of offline RLHF with 10x less data, and potentially 1000x at scale.

S. Asghari, Seyed Mohammad Asghari, Chris Chute +7

RLHF & Preference Learning Training Efficiency & Optimization

Shanghai Institute for Mathematics and Interdisciplinary Sciences (SIMIS)2w ago·also Fudan

Variational Kernel Design for Internal Noise: Gaussian Chaos Noise, Representation Compatibility, and Reliable Deep Learning

Forget dropout – Gaussian Chaos Noise offers provable control over representation deformation and boosts calibration in deep networks.

Ziran Liu

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

2w ago·also AGI Lab, Westlake-AGI-Lab/CleanStyle

Few-Step Diffusion Sampling Through Instance-Aware Discretizations

Instance-specific timestep schedules can significantly boost diffusion model performance, challenging the reliance on global discretization strategies.

Liangyu Yuan, Ruoyu Wang, Tong Zhao +4

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

2w ago

Parameter-Efficient Modality-Balanced Symmetric Fusion for Multimodal Remote Sensing Semantic Segmentation

Achieve state-of-the-art performance in multimodal remote sensing semantic segmentation with significantly fewer trainable parameters by using a novel parameter-efficient and modality-balanced symmetric fusion framework.

Haocheng Li, Juepeng Zheng, Shuangxi Miao +4

Computer Vision Multimodal Models Training Efficiency & Optimization

2w ago

Towards Infinitely Long Neural Simulations: Self-Refining Neural Surrogate Models for Dynamical Systems

Autoregressive neural surrogates can now simulate dynamical systems for infinitely long horizons, thanks to a novel self-refining diffusion model that avoids error compounding.

Qi Liu, Laure Zanna, Joan Bruna

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization World Models & Planning

Yusuke Ono +32w ago

Analysis of molecular dynamics simulation data via statistical distances between covariance matrices

Unlocking insights from massive molecular dynamics simulations just got easier: covariance matrix comparisons reveal key physical properties and phase transitions with remarkable data efficiency.

Yusuke Ono, Takumi Sato, K. Yasuoka +1

Scientific Discovery & Drug Design Training Efficiency & Optimization

Meta AI2w ago

R2-Dreamer: Redundancy-Reduced World Models without Decoders or Augmentation

Ditch the data augmentation and decoders: R2-Dreamer's Barlow Twins-inspired objective delivers faster, more versatile MBRL, especially when spotting the small stuff matters.

N. Morihira, Amal Nahar, K. Bharadwaj +6

Data Curation & Synthetic Data Training Efficiency & Optimization World Models & Planning

Mar 17, 2026

2w ago

OPERA: Online Data Pruning for Efficient Retrieval Model Adaptation

Forget full finetuning: OPERA's dynamic pruning lets you adapt retrieval models to new domains with better ranking and recall, in half the time.

Haoyang Fang, Shuai Zhang, Yifei Ma +5

Inference & Quantization Recommendation & Information Retrieval Training Efficiency & Optimization

Tsinghua AI2w ago

Making Separation-First Multi-Stream Audio Watermarking Feasible via Joint Training

Jointly training audio watermarking and source separation unlocks robust multi-stream watermarking, enabling independent tracking of individual audio components within a mix.

Houmin Sun, Zipei Hu, Zi Hu +4

Architecture Design (Transformers, SSMs, MoE)Speech & Audio Training Efficiency & Optimization

2w ago

Biased Compression in Gradient Coding for Distributed Learning

Biased compression, previously overlooked in distributed learning with gradient coding, can actually boost performance when combined with error feedback to mitigate straggler effects and reduce communication costs.

Chengxi Li, Ming Xiao, Mikael Skoglund

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

2w ago

FEAT: A Linear-Complexity Foundation Model for Extremely Large Structured Data

Forget quadratic attention: FEAT achieves state-of-the-art performance on structured data with linear complexity and 40x faster inference.

Zhenghang Song, Tang Qian, Lu Chen +7

Architecture Design (Transformers, SSMs, MoE)Scaling Laws & Emergent Abilities Training Efficiency & Optimization

2w ago

MDM-Prime-v2: Binary Encoding and Index Shuffling Enable Compute-optimal Scaling of Diffusion Language Models

Masked diffusion language models can now achieve 21.8x better compute efficiency than autoregressive models, thanks to binary encoding and index shuffling.

Chen-Hao Chao, Weiye Sun, Wei-Fang Sun +3

Architecture Design (Transformers, SSMs, MoE)Scaling Laws & Emergent Abilities Training Efficiency & Optimization

Engineering Group2w ago

EngGPT2: Sovereign, Efficient and Open Intelligence

This Italian LLM punches way above its weight, matching the performance of models trained on 6-10x more data while using only 3B active parameters during inference.

G. Ciarfaglia, A. Rosanova, S. Cipolla +13

Eval Frameworks & Benchmarks Open-Source Models & Weights Training Efficiency & Optimization

Dalhousie University2w ago

Energy Flow Graph: Modeling Software Energy Consumption

Software energy consumption isn't just an aggregate number – it's a path-dependent journey, and this new model reveals hidden optimization opportunities that can slash energy use by up to 705x.

Saurabhsingh Rajput, Tushar Sharma

Architecture Design (Transformers, SSMs, MoE)Code Generation & Program Synthesis Training Efficiency & Optimization

2w ago·also University of South Carolina

SympFormer: Accelerated attention blocks via Inertial Dynamics on Density Manifolds

SympFormer achieves faster convergence in attention blocks by drawing inspiration from inertial Nesterov acceleration, offering a potential speedup without additional computational cost.

Viktor Stein, Wuchen Li, Gabriele Steidl

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Camille Jimenez Cortes +52w ago

Sample-Efficient Adaptation of Drug-Response Models to Patient Tumors under Strong Biological Domain Shift

Unsupervised pretraining of drug-response models offers clear gains when adapting to patient tumors with very limited labeled data, despite providing limited benefit when source and target domains overlap substantially.

Camille Jimenez Cortes, Camille Jimenez Cortes, Philippe Lalanda +3

Scientific Discovery & Drug Design Training Efficiency & Optimization

A. He +12w ago

Neural Pushforward Samplers for the Fokker-Planck Equation on Embedded Riemannian Manifolds

Solve Fokker-Planck equations on manifolds without meshes by pushing forward samples with neural networks.

A. He, Wei Cai

Scientific Discovery & Drug Design Training Efficiency & Optimization

Ltd./AI Open Research Lab2w ago

DynamicGate MLP Conditional Computation via Learned Structural Dropout and Input Dependent Gating for Functional Plasticity

DynamicGate-MLP learns to selectively activate MLP units based on the input, achieving better compute efficiency without sacrificing performance.

Yong Il Choi

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

2w ago

An Efficient Heterogeneous Co-Design for Fine-Tuning on a Single GPU

Fine-tune 123B+ parameter models on a single RTX 4090 with SlideFormer, a system that achieves up to 6x larger models and 8x larger batch sizes.

Ruijia Yang, Zeyi Wen

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Rina Veler +12w ago

Speakers Localization Using Batch EM In Unfolding Neural Network

Unfolding the EM algorithm into a neural network yields a speaker localization method that's more robust and accurate than traditional Batch-EM, especially in challenging acoustic conditions.

Rina Veler, Sharon Gannot

Architecture Design (Transformers, SSMs, MoE)Speech & Audio Training Efficiency & Optimization

Qi-Yuan Liang +32w ago

Multi-GPU MBE(3)-OSV-MP2 for Performant Large-Scale ab initio Calculations

Achieve near-linear scaling and 40x speedup for MP2 calculations on large molecules by unleashing multi-GPU parallelism for local correlation methods.

Qi-Yuan Liang, Qiujiang Liang, J. Yang +1

Distributed Systems & Hardware Scientific Discovery & Drug Design Training Efficiency & Optimization

2w ago

Deep Learning-Driven Black-Box Doherty Power Amplifier with Pixelated Output Combiner and Extended Efficiency Range

Deep learning slashes design time for high-efficiency Doherty power amplifiers, enabling complex pixelated combiners that extend the back-off efficiency range.

Han Zhou, Haojie Chang, David Widén +1

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

Maxime Vaillant +42w ago·also 9]. ***Code and trained models will be made publicly available upon acceptance.

SpikeCLR: Contrastive Self-Supervised Learning for Few-Shot Event-Based Vision using Spiking Neural Networks

SNNs can now learn robust visual representations from unlabeled event data, rivaling supervised learning in low-data regimes, thanks to a new contrastive self-supervised learning framework.

Maxime Vaillant, Axel Carlier, Lai Xing Ng +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Francesco Pio Monaco +72w ago

Frequency Matters: Fast Model-Agnostic Data Curation for Pruning and Quantization

Forget perplexity – ZipCal uses Zipf's law to curate calibration data for LLM compression, matching state-of-the-art performance at 240x the speed.

Francesco Pio Monaco, Francesco Monaco, Elia Cunegatti +5

Data Curation & Synthetic Data Inference & Quantization Training Efficiency & Optimization

Xinhao Cai +52w ago

PKINet-v2: Towards Powerful and Efficient Poly-Kernel Remote Sensing Object Detection

PKINet-v2 achieves state-of-the-art accuracy in remote sensing object detection while delivering a 3.9x FPS acceleration by fusing anisotropic and isotropic kernels into a single efficient depth-wise convolution.

Xinhao Cai, Liulei Li, Gensheng Pei +3

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

E. Daneshmand +42w ago

SLowRL: Safe Low-Rank Adaptation Reinforcement Learning for Locomotion

Rank-1 LoRA fine-tuning can safely and efficiently adapt simulated locomotion policies to real-world robots, slashing fine-tuning time by nearly half while maintaining safety.

E. Daneshmand, Shafeef Omar, Glen Berseth +2

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

2w ago

Rethinking UMM Visual Generation: Masked Modeling for Efficient Image-Only Pre-training

Train your UMM visual generation component on image-only data first and you'll get SOTA performance with a fraction of the compute.

Peng Sun, Peng Sun, Junlin Xie +3

Computer Vision Multimodal Models Training Efficiency & Optimization

2w ago·also Tsinghua AI, Hangzhou Dianzi University, NTU, PKU

Resource Consumption Threats in Large Language Models

Resource consumption vulnerabilities in LLMs can lead to degraded service availability and economic sustainability, demanding a systematic understanding and mitigation approach.

Yuanhe Zhang, Yuanhe Zhang, Xinyue Wang +17

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

2w ago

ViT-AdaLA: Adapting Vision Transformers with Linear Attention

Ditch quadratic attention in your ViTs without sacrificing performance: ViT-AdaLA distills knowledge from pre-trained VFMs into linear attention architectures, achieving state-of-the-art results on classification and segmentation.

Yifan Li, Seunghyun Yoon, Viet Dac Lai +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

2w ago

Domain Mixture Design via Log-Likelihood Differences for Aligning Language Models with a Target Model

Forget expensive distillation – aligning language models can be as simple as carefully choosing the right mix of pretraining data based on log-likelihood differences.

Ryo Kishino, Riku Shiomi, Hiroaki Yamagiwa +3

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Ji-Fu Li +62w ago·also Corresponding author. Preprint

BATQuant: Outlier-resilient MXFP4 Quantization via Learnable Block-wise Optimization

MXFP4 quantization just got a whole lot better: BATQuant recovers up to 96.43% of full-precision performance in LLMs and MLLMs, even under aggressive W4A4KV16 settings, by preventing outlier propagation across quantization blocks.

Ji-Fu Li, Manyi Zhang, Xiaobo Xia +4

Inference & Quantization Multimodal Models Training Efficiency & Optimization

Elnaz Rahmati +42w ago

Abstraction as a Memory-Efficient Inductive Bias for Continual Learning

Forget replay buffers: this method achieves state-of-the-art continual learning performance with zero additional memory by training on both concrete data and its abstract representations.

Elnaz Rahmati, Nona Ghazizadeh, Zhivar Sourati +2

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Mengze Tian +62w ago

Learning Whole-Body Control for a Salamander Robot

Reinforcement learning can now orchestrate the complex, whole-body movements of salamander robots, enabling seamless transitions between walking and swimming.

Mengze Tian, Qiyuan Fu, Chuanfang Ning +4

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

Search

Training Efficiency & Optimization - Weekly Roundup

Selected Labs publishing this week

Top Papers

All Papers (100)