May 1 – May 8, 2026

Training Efficiency & Optimization - Weekly Roundup

96 papers published across 8 labs.

Selected Labs publishing this week

CMU ML3 Microsoft Research2 DAMO1 UW1 NUS1

Top Papers

May 6, 2026

Shitong Shao +62w ago

Lightning Unified Video Editing via In-Context Sparse Attention

Achieve near-lossless 60% attention latency reduction in video editing by exploiting query sharpness to dynamically route attention.

Shitong Shao, Zikai Zhou, Haopeng Li +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

DAMO2w ago·also CUHK, HKUST

D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models

Fine-tuning efficient few-step diffusion models no longer requires sacrificing their speed, thanks to a self-distillation approach that preserves inference capabilities.

Dengyang Jiang, Xin Jin, Dongyang Liu +9

Computer Vision Inference & Quantization Training Efficiency & Optimization

2w ago

Estimating the expected output of wide random MLPs more efficiently than sampling

Skip the sampling: accurately predict the behavior of wide, random MLPs with a fraction of the compute, especially when assessing rare, high-stakes outcomes.

Wilson Wu, Victor Lecomte, Michael Winer +3

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Arthur Gretton +52w ago

On the Wasserstein Gradient Flow Interpretation of Drifting Models

GMD algorithms, previously seen as a novel generative framework, can be understood as directly targeting fixed points of Wasserstein Gradient Flows, offering a new perspective on their optimization process.

Arthur Gretton, Li Kevin Wenliang, Alexandre Galashov +3

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Xiaoyu Jiang +42w ago

Transformed Latent Variable Multi-Output Gaussian Processes

Modeling 10,000+ correlated outputs is now tractable: T-LVMOGP offers a scalable alternative to restrictive low-rank MOGPs by learning a flexible deep kernel in a shared embedding space.

Xiaoyu Jiang, Xinxing Shi, Sokratia Georgaka +2

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

All Papers (96)

May 6, 2026

Shitong Shao +62w ago

Lightning Unified Video Editing via In-Context Sparse Attention

Achieve near-lossless 60% attention latency reduction in video editing by exploiting query sharpness to dynamically route attention.

Shitong Shao, Zikai Zhou, Haopeng Li +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

DAMO2w ago·also CUHK, HKUST

D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models

Fine-tuning efficient few-step diffusion models no longer requires sacrificing their speed, thanks to a self-distillation approach that preserves inference capabilities.

Dengyang Jiang, Xin Jin, Dongyang Liu +9

Computer Vision Inference & Quantization Training Efficiency & Optimization

2w ago

Estimating the expected output of wide random MLPs more efficiently than sampling

Skip the sampling: accurately predict the behavior of wide, random MLPs with a fraction of the compute, especially when assessing rare, high-stakes outcomes.

Wilson Wu, Victor Lecomte, Michael Winer +3

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Arthur Gretton +52w ago

On the Wasserstein Gradient Flow Interpretation of Drifting Models

Arthur Gretton, Li Kevin Wenliang, Alexandre Galashov +3

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Xiaoyu Jiang +42w ago

Transformed Latent Variable Multi-Output Gaussian Processes

Modeling 10,000+ correlated outputs is now tractable: T-LVMOGP offers a scalable alternative to restrictive low-rank MOGPs by learning a flexible deep kernel in a shared embedding space.

Xiaoyu Jiang, Xinxing Shi, Sokratia Georgaka +2

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

UW2w ago·also SNU

Unified Framework of Distributional Regret in Multi-Armed Bandits and Reinforcement Learning

Distributional regret bounds, which quantify the probability of exceeding different regret levels, are now achievable with a UCBVI-style algorithm, confirming a long-standing conjecture for multi-armed bandits.

RLHF & Preference Learning Training Efficiency & Optimization

Tianshu Zhu +102w ago

Rollout Pass-Rate Control: Steering Binary-Reward RL Toward Its Most Informative Regime

Maximizing reward entropy by targeting a 50% pass rate in binary-reward RL unlocks significant speedups and performance gains in agentic tasks.

Tianshu Zhu, Wenyu Zhang, Xiaoying Zuo +8

Tool Use & Agents Training Efficiency & Optimization

Department of Mathematics2w ago

Proximal Projection for Doubly Sparse Regularized Models

Doubly sparse regression gets a boost: this method avoids predictor duplication, saving compute, by projecting directly onto the intersection of selected groups.

Jia Wei He, R. Ayesha Ali, Gerarda Darlington

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

2w ago

Piper: Efficient Large-Scale MoE Training via Resource Modeling and Pipelined Hybrid Parallelism

Training MoE models just got a whole lot faster: Piper achieves up to 3.5x higher MFU by intelligently scheduling pipeline parallelism and optimizing communication.

Sajal Dash, Feiyi Wang

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Andrea Napoli +12w ago

Order Matters: Improving Domain Adaptation by Reordering Data

Training data order matters more than you think: reordering your data can significantly improve unsupervised domain adaptation by reducing variance in domain discrepancy estimates.

Andrea Napoli, Paul White

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Changsha University of Science and Technology2w ago

The Impossibility Triangle of Long-Context Modeling

Long-context models face a provable "impossibility triangle": you can't have efficiency, compactness, and unbounded recall *at the same time*.

Yan Zhou

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

2w ago

Learned Neighbor Trust for Collaborative Deployment in Model-Agnostic Decentralized Learning

Stop training in isolation: LNTrust lets decentralized models learn *who* to trust during training, so they can collaborate effectively at deployment, boosting accuracy and cutting communication costs.

Michael Lanier, Luise Ge, Sastry Kompella +1

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

Bac Trinh-Nguyen +42w ago·also Cergy Paris University, ENSEA, ETIS UMR 8051, Singapore Institute of Technology (SIT) +1

Adaptive Learning Strategies for AoA-Based Outdoor Localization: A Comprehensive Framework

Stop wasting time and resources on massive localization datasets: this framework achieves highly accurate outdoor localization by adaptively switching between offline and online learning strategies based on data availability.

Bac Trinh-Nguyen, Sara Berri, Sin G. Teo +2

Data Curation & Synthetic Data Training Efficiency & Optimization

2w ago·also Huawei

Direct Product Flow Matching: Decoupling Radial and Angular Dynamics for Few-Shot Adaptation

Decoupling radial and angular dynamics in vision-language model adaptation unlocks significant gains in few-shot performance, outperforming existing flow matching methods.

Hongxu Chen, Yanghao Wang, Bowei Zhu +6

Computer Vision Multimodal Models Training Efficiency & Optimization

2w ago

Preference-Based Self-Distillation: Beyond KL Matching via Reward Regularization

Self-distillation can be more effective than learning from an external teacher, but only if you optimize for preference gaps instead of blindly matching the teacher's output distribution.

Xin Yu, Liuchen Liao, Yiwen Zhang +3

Inference & Quantization RLHF & Preference Learning Training Efficiency & Optimization

CMU ML2w ago

Graph-SND: Sparse Aggregation for Behavioral Diversity in Multi-Agent Reinforcement Learning

Scale multi-agent RL diversity metrics to hundreds of agents without sacrificing accuracy: Graph-SND offers a drop-in replacement for quadratic SND calculations, achieving near-identical results with order-of-magnitude speedups.

Shawn Ray

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

NUS2w ago·also SJTU

CuBridge: An LLM-Based Framework for Understanding and Reconstructing High-Performance Attention Kernels

LLMs can now generate high-performance CUDA attention kernels that outperform hand-optimized code, thanks to a novel lift-transfer-lower approach that leverages expert knowledge.

Architecture Design (Transformers, SSMs, MoE)Code Generation & Program Synthesis Training Efficiency & Optimization

Antonin Berthon +22w ago

Skill Neologisms: Towards Skill-based Continual Learning

Forget fine-tuning: "skill neologisms"—new soft tokens—let you inject skills into LLMs without weight updates, composing them zero-shot for flexible knowledge expansion.

Antonin Berthon, Nicolas Astorga, Mihaela van der Schaar

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

2w ago·also Vienna

Adaptivity Under Realizability Constraints: Comparing In-Context and Agentic Learning

ReLU network constraints can flip the script on whether adaptive querying helps in-context learning.

Anastasis Kratsios, A. Martina Neuman, Philipp Petersen

Tool Use & Agents Training Efficiency & Optimization

BIFOLD -Berlin Institute for the Foundations2w ago·also Charité -Universitätsmedizin Berlin, Korea U, Max Planck, TU Berlin

Reliable Modeling of Distribution Shifts via Displacement-Reshaped Optimal Transport

Observed sample displacements can be integrated into optimal transport to carve expressways through the input space, leading to more reliable modeling of distribution shifts.

Philip Naumann, Jacob Kauffmann, Klaus-Robert Müller +1

Training Efficiency & Optimization

Kyungwon Jeong +22w ago

Why Geometric Continuity Emerges in Deep Neural Networks: Residual Connections and Rotational Symmetry Breaking

Geometric continuity in deep networks isn't just a byproduct of depth, but an actively sculpted property arising from the interplay of residual connections and symmetry-breaking activations.

Kyungwon Jeong, Won-Gi Paeng, Honggyo Suh

Architecture Design (Transformers, SSMs, MoE)Interpretability & Mechanistic Interp Training Efficiency & Optimization

Both authors contributed equally2w ago

On the Influence of the Feature Computation Budget on Per-Instance Algorithm Selection for Black-Box Optimization

Spending up to 25% of your black-box optimization budget on feature computation for per-instance algorithm selection can still pay off, but optimizing that budget is key to unlocking PIAS's full potential.

Koen van der Blom, Diederick Vermetten

Training Efficiency & Optimization

Xuan Qi +52w ago

Training-Time Batch Normalization Reshapes Local Partition Geometry in Piecewise-Affine Networks

Batch normalization's power comes from reshaping the geometry of neural network decision boundaries on a per-batch basis, not just from optimization benefits.

Xuan Qi, Yi Wei, Fanqi Yu +3

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

2w ago

Rethinking Local Learning: A Cheaper and Faster Recipe for LLM Post-Training

LLMs can be efficiently post-trained by only updating half the parameters, slashing memory costs without sacrificing performance.

Hengyu Shi, Peizhe Wang, Zhiling Wang +1

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

University of Würzburg2w ago·also Computer Vision Lab

Delta-Based Neural Architecture Search: LLM Fine-Tuning via Code Diffs

LLMs can now generate neural architectures with 75% less code and higher accuracy by learning to write code "diffs" instead of building from scratch.

Santosh Premi Adhikari, Radu Timofte, Dmitry Ignatov

Architecture Design (Transformers, SSMs, MoE)Code Generation & Program Synthesis Training Efficiency & Optimization

University of Artificial Intelligence2w ago

Regime-Conditioned Evaluation in Multi-Context Bayesian Optimization

Unstable BO leaderboard rankings? They're likely due to ignoring the budget ratio (B/|A|) and prior rank correlation, which this paper elegantly captures with the Portable Regime Score (PRS) to predict performance reversals.

Noel Thomas

Eval Frameworks & Benchmarks Scientific Discovery & Drug Design Training Efficiency & Optimization

2w ago

Hybrid Iterative Neural Low-Regularity Integrator for Nonlinear Dispersive Equations

Neural operators can stably and accurately correct the structured truncation errors of classical numerical solvers for dispersive PDEs, even with rough data.

Zhangyong Liang

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

Yizheng Wang +42w ago

Replay-Based Continual Learning for Physics-Informed Neural Operators

Physics-informed neural operators can now learn continually without forgetting, thanks to a simple replay strategy that preserves past knowledge while rapidly adapting to new out-of-distribution data.

Yizheng Wang, M. Eshaghi, Xiaoying Zhuang +2

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

Tsinghua AI2w ago

Trustworthy Federated Label Distribution Learning under Annotation Quality Disparity

Federated learning struggles when data quality varies across clients, but FedQual solves this with a novel approach that calibrates low-quality clients while preserving high-quality autonomy.

Junxiang Wu, Zhi Kou, Hongwei Zeng +8

Data Curation & Synthetic Data Distributed Systems & Hardware Training Efficiency & Optimization

Taiga Hayashi +52w ago

Improving FMQA via Initial Training Data Design Considering Marginal Bit Coverage in One-Hot Encoding

Incomplete one-hot encoding during FMQA's initial training phase can be overcome with space-filling sampling methods, leading to improved optimization performance.

Taiga Hayashi, Yuya Seki, Kotaro Terada +3

Data Curation & Synthetic Data Training Efficiency & Optimization

Omkar B. Shende +22w ago

AxMoE: Characterizing the Impact of Approximate Multipliers on Mixture-of-Experts DNN Architectures

Approximate computing can break MoEs in unexpected ways, with dense networks sometimes proving more robust, but careful retraining can unlock surprising efficiency gains in specific architectures.

Omkar B. Shende, Marcello Traiola, Gayathri Ananthanarayanan

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Kang Liu +22w ago

Exact Dual Geometry of SOC-ICNN Value Functions

Unlock white-box inference for SOC-ICNNs by directly reading out geometric primitives like Hessians from the optimal dual variables, bypassing black-box differentiation.

Kang Liu, Jianchen Hu, Wei Peng

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Leon Witt +42w ago

Knowledge-Free Correlated Agreement for Incentivizing Federated Learning

Incentivizing honest participation in federated learning is now possible without ground truth labels, even when some participants are trying to game the system.

Leon Witt, T. Abbaslı, Kentaroh Toyoda +2

Distributed Systems & Hardware Natural Language Processing Training Efficiency & Optimization

Zhikai Li +42w ago

OSAQ: Outlier Self-Absorption for Accurate Low-bit LLM Quantization

Suppressing weight outliers via a Hessian-informed additive transformation unlocks >40% perplexity reduction in 2-bit quantized LLMs compared to standard GPTQ.

Zhikai Li, Zhen Dong, Xuewen Liu +2

Inference & Quantization Training Efficiency & Optimization

Wageningen University & Research2w ago·also F-DNN in this work. G

MixINN: Accelerating Plant Breeding by Combining Mixed Models and Deep Learning for Interaction Prediction

A hybrid AI model can boost corn yield predictions by up to 7.2%, offering a promising path to accelerate climate-adapted crop development.

Aike Potze, F. V. Eeuwijk, Ioannis N. Athanasiadis

Scientific Discovery & Drug Design Training Efficiency & Optimization

Sandarbh Yadav +32w ago

Using Common Random Numbers for Simulation-based Planning with Rollouts

Aligning random seeds across rollout simulations can significantly boost the performance of simulation-based planning, even in complex environments like Ludo.

Sandarbh Yadav, Frederic J Maliakkal, H. Khadilkar +1

Training Efficiency & Optimization World Models & Planning

Shereen Elsayed +32w ago

Rethinking Convolutional Networks for Attribute-Aware Sequential Recommendation

Ditch the attention: ConvRec proves convolutional networks can beat Transformers in sequential recommendation while slashing compute and memory costs.

Shereen Elsayed, N. Le, Ahmed Rashed +1

Architecture Design (Transformers, SSMs, MoE)Recommendation & Information Retrieval Training Efficiency & Optimization

Lirui Luo +42w ago

SPHERE: Mitigating the Loss of Spectral Plasticity in Mixture-of-Experts for Deep Reinforcement Learning

MoEs, despite their scaling advantages, suffer from a surprising "spectral plasticity loss" in continual RL, but a simple Parseval penalty can recover performance.

Lirui Luo, Guoxi Zhang, Hongming Xu +2

Architecture Design (Transformers, SSMs, MoE)Robotics & Embodied AI Training Efficiency & Optimization

Kang Liu +22w ago

Budget-aware Auto Optimizer Configurator

Fine-tune optimizer precision block-by-block and slash memory use without sacrificing model quality.

Kang Liu, Wei Peng, Jianchen Hu

Distributed Systems & Hardware Training Efficiency & Optimization

2w ago·also Brown, Northeastern

When Life Gives You BC, Make Q-functions: Extracting Q-values from Behavior Cloning for On-Robot Reinforcement Learning

Forget brittle imitation learning: Q2RL unlocks robust on-robot reinforcement learning by distilling a Q-function from Behavior Cloning and intelligently gating between imitation and RL based on Q-value estimates.

Lakshita Dodeja, Ondrej Biza, Shivam Vats +5

Robotics & Embodied AI Training Efficiency & Optimization

Seungeun Rho +52w ago

LineRides: Line-Guided Reinforcement Learning for Bicycle Robot Stunts

Forget hand-crafted reward functions: this RL framework lets a bicycle robot learn complex stunts from just a spatial guideline and a few key poses.

Seungeun Rho, Shamel Fahmi, Jeonghwan Kim +3

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

Zheng Fang +42w ago

Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization

Turns out you only need to tweak a few key audio tokens to jailbreak audio language models, opening the door to faster, more targeted attacks.

Zheng Fang, Xiaosen Wang, Shenyi Zhang +2

Red-Teaming & Adversarial Robustness Speech & Audio Training Efficiency & Optimization

Vlad Vasilescu +22w ago

Efficient Geometry-Controlled High-Resolution Satellite Image Synthesis

Synthesizing high-resolution satellite imagery with geometric precision is now more efficient, thanks to a windowed cross-attention method that rivals existing techniques while better respecting geometric constraints.

Vlad Vasilescu, Daniela Faur, T. Costachioiu

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

Xuanhao Zhang +12w ago

Stage-adaptive audio diffusion modeling

Audio diffusion models can be trained more efficiently by dynamically adjusting optimization strategies based on the evolving balance between semantic acquisition and fine-detail refinement during training.

Xuanhao Zhang, Chang Li

Speech & Audio Training Efficiency & Optimization

Kazan Federal University2w ago·also Automation and Information Technologies, Department of Automated Systems for Data, Department of Data Analysis and Programming, Dmukhtasibovich -Doctor of Physical and Mathematical +5

Adapting Large Language Models to a Low-Resource Agglutinative Language: A Comparative Study of LoRA and QLoRA for Bashkir

Forget full fine-tuning: QLoRA on 7B models can match the perplexity of fully fine-tuned smaller models for low-resource languages, while slashing the parameter count by 40x.

Mullosharaf K. Arabov, Svetlana S. Khaybullina

Inference & Quantization Natural Language Processing Training Efficiency & Optimization

2w ago

FAAST: Forward-Only Associative Learning via Closed-Form Fast Weights for Test-Time Supervised Adaptation

Forget backprop and memory lookups: FAAST lets you adapt models at test time with a single forward pass, matching fine-tuning accuracy with massive speed and memory gains.

Guangsheng Bao, Hongbo Zhang, Han Cui +2

Computer Vision Inference & Quantization Training Efficiency & Optimization

Xinyu Wang +32w ago

Stabilizing LLM Supervised Fine-Tuning via Explicit Distributional Control

LLMs can retain 10x more of their original capabilities after fine-tuning, simply by using a dynamically adjusted "anchor" to constrain distributional drift during training.

Xinyu Wang, Changzhi Sun, Yuanbin Wu +1

Natural Language Processing Training Efficiency & Optimization

2w ago

A Pragmatic Comparison of Cryptographic Computation Technologies for Machine Learning

Choosing between secure multi-party computation (SMPC) and fully homomorphic encryption (FHE) for secure ML depends heavily on the model architecture: FHE excels at regressions and simple networks, while SMPC dominates for complex CNNs.

Marcus Taubert, Adam Skuta, Thomas Loruenser

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

Lingzhe Zhang +82w ago

Towards Robust LLM Post-Training: Automatic Failure Management for Reinforcement Fine-Tuning

RFT's Achilles heel? This benchmark reveals how fragile reinforcement fine-tuning is, and introduces an automated system to catch and fix training failures before they tank your LLM.

Lingzhe Zhang, Tong Jia, Yunpeng Zhai +6

Distributed Systems & Hardware RLHF & Preference Learning Training Efficiency & Optimization

Yuhu Guo +62w ago

Reduced-order Neural Modeling with Differentiable Simulation for High-Detail Tactile Perception

Get high-fidelity tactile simulations with 65% speedup and 40% less memory by combining coarse physics with neural implicit reconstruction.

Yuhu Guo, Zhikai Shen, Jiasheng Qu +4

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

2w ago

CPCANet: Deep Unfolding Common Principal Component Analysis for Domain Generalization

Forget dataset-specific hacks: CPCANet achieves SOTA domain generalization by explicitly learning a structured, domain-invariant subspace with a differentiable CPCA layer.

Yu-Hsi Chen, Abd-Krim Seghouane

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Siyuan Du +72w ago

Deep Reprogramming Distillation for Medical Foundation Models

Forget PEFT and KD, reprogramming distillation offers a surprisingly effective and robust way to adapt large medical foundation models to diverse downstream tasks.

Siyuan Du, Yuhang Zhou, Haolin Li +5

Inference & Quantization Scientific Discovery & Drug Design Training Efficiency & Optimization

Microsoft Research2w ago·also Drive.

CRAFT: Counterfactual-to-Interactive Reinforcement Fine-Tuning for Driving Policies

Autonomous driving gets a boost: CRAFT cleverly combines the best of both worlds – dense counterfactual supervision and grounded closed-loop feedback – to significantly improve driving policies.

Keyu Chen, Nanfei Ye, Yida Wang +4

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

Franek Stark +42w ago

Right Model, Right Time: Real-Time Cascaded-Fidelity MPC for Bipedal Walking

Achieve real-time bipedal walking control by cleverly swapping high-fidelity for low-fidelity models in MPC, slashing computation without sacrificing stability.

Franek Stark, Felix Wiebe, Shubham Vyas +2

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

2w ago·also CMU ML

AGIPC: Adaptive In-Solve Algebraic Coarsening for GPU IPC

Implicit time integration on GPUs gets a 3x speed boost thanks to a novel algebraic coarsening method that avoids costly explicit remeshing.

Xuan Wang, Zhaofeng Luo, Minchen Li +2

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Dongheon Lee +62w ago

Spatial-Magnifier: Spatial upsampling for multichannel speech enhancement

Unlock near-oracle speech enhancement performance from compact microphone arrays by virtually expanding their spatial coverage with a novel neural network.

Dongheon Lee, Ashutosh Pandey, Sanjeel Parekh +4

Architecture Design (Transformers, SSMs, MoE)Speech & Audio Training Efficiency & Optimization

Yanjia Chen +62w ago

Optimal Uncertainty-Aware Calibration for the AX=YB Problem

Hand-eye calibration gets a 67% accuracy boost in high-uncertainty scenarios thanks to a new optimization framework that cleverly avoids explicit uncertainty modeling.

Yanjia Chen, Xiangfei Li, Huan Zhao +4

Computer Vision Robotics & Embodied AI Training Efficiency & Optimization

Yating Wang +42w ago

Joint Semantic Token Selection and Prompt Optimization for Interpretable Prompt Learning

Make your prompts 5x more interpretable without hurting accuracy: IPL combines discrete token selection with continuous optimization, and it's plug-and-play with existing methods.

Yating Wang, Yaqi Zhao, Yongshun Gong +2

Interpretability & Mechanistic Interp Multimodal Models Training Efficiency & Optimization

Zishu Zhou +22w ago

Temporal Structure Matters for Efficient Test-Time Adaptation in Wearable Human Activity Recognition

Exploiting temporal continuity and feature deviations in wearable sensor data lets you adapt activity recognition models on the fly, boosting accuracy while slashing compute costs.

Zishu Zhou, Zaipeng Xie, Xuanyao Jie

Inference & Quantization Training Efficiency & Optimization

Alexander Vedernikov2w ago

Not Every Subject Should Stay: Machine Unlearning for Noisy Engagement Recognition

Quickly sanitize your engagement recognition models after training: subject-level unlearning recovers ~90% of retraining benefits at 25% of the cost.

Alexander Vedernikov

Data Curation & Synthetic Data Training Efficiency & Optimization

2w ago

Low-Rank Adaptation of Geospatial Foundation Models for Wildfire Mapping Using Sentinel-2 Data

Forget full fine-tuning: LoRA lets you adapt Geospatial Foundation Models for wildfire mapping with comparable accuracy while only tweaking 1% of the parameters.

Ali Shibli, Andrea Nascetti, Yifang Ban

Computer Vision Open-Source Models & Weights Training Efficiency & Optimization

Joao B Florindo2w ago

Chaotic Contrastive Learning for Robust Texture Classification

Forget ImageNet – pre-training with chaotic augmentations yields surprisingly robust texture features, outperforming SOTA methods across diverse texture datasets.

Joao B Florindo

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

May 5, 2026

Free University of Bozen-Bolzano2w ago

Parameter-Efficient Multi-View Proficiency Estimation: From Discriminative Classification to Generative Feedback

Get expert-level feedback on your performance, not just a score, thanks to a new approach that uses language generation for proficiency estimation.

E. Bianchi, Antonio Liotta

Computer Vision Multimodal Models Training Efficiency & Optimization

Bin Wu +62w ago

Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation

Stop wasting compute on unreliable rollouts and easy frames: Stream-R1 adaptively focuses video diffusion distillation where it matters most, boosting quality without architectural changes or added inference cost.

Bin Wu, Mengqi Huang, Shaojin Wu +4

Computer Vision Inference & Quantization Training Efficiency & Optimization

Mohammed Sabry +12w ago

Budgeted LoRA: Distillation as Structured Compute Allocation for Efficient Inference

Get 4x faster LLM inference with Budgeted LoRA, which smartly redistributes compute between dense and low-rank pathways during distillation, outperforming standard LoRA in both speed and function-style in-context learning.

Mohammed Sabry, Anya Belz

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Oona Itkonen +12w ago

The Impact of Vocabulary Overlaps on Knowledge Transfer in Multilingual Machine Translation

Domain match and language relatedness trump joint vocabularies for effective knowledge transfer in multilingual NMT.

Oona Itkonen, Jörg Tiedemann

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Skye Gunasekaran +32w ago

Transformers with Selective Access to Early Representations

SATFormer shows that selectively gating access to early-layer representations boosts Transformer performance, especially in retrieval tasks, without sacrificing efficiency.

Skye Gunasekaran, Téa Y. Wright, Rui-Jie Zhu +1

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

2w ago

Covariance-Aware Goodness for Scalable Forward-Forward Learning

Forward-Forward learning can finally compete with backpropagation on complex image tasks, thanks to a novel covariance-aware goodness function that captures crucial second-order feature dependencies.

Xiaoyi Jiang, Bashir M. Al-Hashimi, Kai Xu

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Haruto Nakashima +22w ago

Globally Solving Unbalanced Optimal Transport and Density Control for Gaussian Distributions

Forget iterative approximations – this work delivers globally optimal solutions for unbalanced optimal transport between Gaussians via a clever reduction to finite-dimensional optimization.

Haruto Nakashima, Siddhartha Ganguly, Kenji Kashima

Scientific Discovery & Drug Design Training Efficiency & Optimization

Dezhong Tong +52w ago

Neural Control: Adjoint Learning Through Equilibrium Constraints

Differentiating through physical simulations just got a whole lot easier: Neural Control avoids unrolling iterative solvers by using an adjoint formulation, enabling memory-efficient gradient-based control.

Dezhong Tong, Jiawen Wang, Hengyi Zhou +3

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

OpenAI2w ago

Resilient AI Supercomputer Networking using MRC and SRv6

AI training jobs can now shrug off network failures that used to halt progress, thanks to a new resilient networking stack deployed at OpenAI and Microsoft.

Joao Araujo, Alex Chow, Mark Handley +150

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Aaron Jarmusch +12w ago

Microbenchmark-Driven Analytical Performance Modeling Across Modern GPU Architectures

Forget simplistic roofline models: these analytical models nail GPU performance prediction on Blackwell and CDNA3 with under 1.5% error.

Aaron Jarmusch, Sunita Chandrasekaran

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Mike Mwanje +32w ago

Surviving the Edge: Federated Learning under Networking and Resource Constraints

Standard federated learning deployments can catastrophically fail with just 5-second latency or 50% packet loss, revealing a fundamental mismatch between FL's communication patterns and default TCP configurations.

Mike Mwanje, Okemawo Obadofin, Theophilus A. Benson +1

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

Dragana Grbic2w ago

Enhancing Performance Insight at Scale: A Heterogeneous Framework for Exascale Diagnostics

Analyzing exascale performance bottlenecks just got hundreds of times faster, thanks to a new GPU-accelerated framework that pinpoints congestion and predicts optimization opportunities in scientific workloads.

Dragana Grbic

Distributed Systems & Hardware Training Efficiency & Optimization

Van-Phat Thai +32w ago

Contrastive Regularization for Accent-Robust ASR

Make your ASR models 25% more accent-robust with this surprisingly simple contrastive loss trick.

Van-Phat Thai, Aradhya Dhruv, D. Pham +1

Natural Language Processing Speech & Audio Training Efficiency & Optimization

A. Lal +32w ago

Discovering Reaction Mechanisms with Transition Path Sampling-Based Active Learning of Machine-Learned Potentials

Active learning guided by transition path sampling overcomes the limitations of machine-learned potentials in transition-state regions, enabling accurate and efficient simulation of rare events without prior mechanistic knowledge.

A. Lal, Rik S Breebaart, P. Bolhuis +1

Data Curation & Synthetic Data Scientific Discovery & Drug Design Training Efficiency & Optimization

E. Varga-Umbrich +52w ago

Pretrained Model Representations as Acquisition Signals for Active Learning of MLIPs

Pretrained MLIPs already encode sufficient information in their latent spaces to guide active learning, enabling efficient fine-tuning without uncertainty quantification.

E. Varga-Umbrich, Shikha Surana, Paul Duckworth +3

Data Curation & Synthetic Data Scientific Discovery & Drug Design Training Efficiency & Optimization

2w ago

PHALAR: Phasors for Learned Musical Audio Representations

Stem retrieval accuracy leaps forward by 70% thanks to a new architecture that finally respects the phase of music.

Davide Marincione, Michele Mancusi, G. Strano +4

Architecture Design (Transformers, SSMs, MoE)Speech & Audio Training Efficiency & Optimization

Manan Mittal +32w ago

Adaptive Diagonal Loading for Norm Constrained Beamforming

Guaranteeing stable beamforming in dynamic acoustic environments is now possible with a novel adaptive diagonal loading method that strictly bounds White Noise Gain.

Manan Mittal, R. Corey, John R. Buck +1

Architecture Design (Transformers, SSMs, MoE)Speech & Audio Training Efficiency & Optimization

Jingjing Zhou +72w ago

Stable Multimodal Graph Unlearning via Feature-Dimension Aware Quantile Selection

Multimodal graph unlearning doesn't have to destroy utility: carefully protecting high-dimensional input projections during the unlearning process preserves performance while still enabling effective forgetting.

Jingjing Zhou, Yongshuai Yang, Qing Qing +5

Multimodal Models Training Efficiency & Optimization

Rihuan Ke2w ago

Learning-based Statistical Refinement for Denoising

Achieve better image denoising without clean data or precise noise models by statistically refining existing denoisers.

Rihuan Ke

Computer Vision Training Efficiency & Optimization

Xun Jiang +72w ago

Multimodal Learning on Low-Quality Data with Conformal Predictive Self-Calibration

Conformal prediction offers a surprisingly effective way to handle both modality imbalance and noisy corruption in multimodal learning by explicitly modeling predictive uncertainty during training.

Xun Jiang, Yufan Gu, Disen Hu +5

Data Curation & Synthetic Data Multimodal Models Training Efficiency & Optimization

2w ago·also SJTU, ZJU

Probabilistic Floating-Point Round-Off Analysis via Concentration Inequalities

Ditch the overly conservative error bounds: a new probabilistic approach to floating-point analysis delivers speed and precision by cleverly taming Taylor expansions.

Yichen Tao, Hongfei Fu, Jiawei Chen +1

Scientific Discovery & Drug Design Training Efficiency & Optimization

IIT2w ago·also Poly Montreal

Mitigating False Positives in Static Memory Safety Analysis of Rust Programs via Reinforcement Learning

Rust developers can slash the noise in static analysis alerts by over 50% using an RL agent that learns to suppress false positives, outperforming even LLM-based methods.

P. Akilesh, L. D. Silva, F. Khomh +1

Code Generation & Program Synthesis Training Efficiency & Optimization

May 4, 2026

Haixin Wang +82w ago·also HKU

T^2PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning

Multi-turn RL agents can learn far more effectively by explicitly monitoring and controlling uncertainty at both the token and turn levels, leading to more stable training and higher performance.

Haixin Wang, Hejie Cui, Chenwei Zhang +6

RLHF & Preference Learning Tool Use & Agents Training Efficiency & Optimization

2w ago·also University of Jyväskylä Jyväskylä

Distributed Quantum Circuit Optimisation: Evaluating Global and Local encodings

Quantum circuit optimization doesn't always improve distributed execution: sometimes, local optimization surprisingly beats global methods at minimizing communication costs.

Maria Gragera Garces, Majid Haghparast

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

2w ago·also HSE University, IDEAS: Inter-Disciplinary & Advanced, Mid Hope Technologies, Moscow Institute of Physics and Technology +2

Caliper-in-the-Loop: Black-Box Optimization for Hyperledger Fabric Performance Tuning

Bayesian optimization can automatically tune Hyperledger Fabric configurations to achieve double-digit throughput improvements, but the impact of measurement noise on interpreting gains cannot be ignored.

Yash Madhwal, Arseny Bolotnikov, Mark Prikhno +5

Distributed Systems & Hardware Training Efficiency & Optimization

Ahmad Dabaja +12w ago

FedPLT: Scalable, Resource-Efficient, and Heterogeneity-Aware Federated Learning via Partial Layer Training

FedPLT achieves full-model accuracy in federated learning while training up to 82% fewer parameters per client, slashing communication costs and enabling participation from resource-constrained devices.

Ahmad Dabaja, Rachid El-Azouzi

Distributed Systems & Hardware Training Efficiency & Optimization

Yijiang Li +52w ago

FedQueue: Queue-Aware Federated Learning for Cross-Facility HPC Training

FedQueue tackles the Achilles' heel of federated learning on HPC clusters - unpredictable queue delays - by explicitly modeling and mitigating their impact, leading to significant speedups.

Yijiang Li, Emon Dey, Zilinghan Li +3

Distributed Systems & Hardware Training Efficiency & Optimization

Yadi Wen +42w ago

Private Speech Classification without Collapse: Stabilized DP Training and Offline Distillation

Strong differential privacy can cause speech classifiers to collapse into near-useless single-class predictors, but a two-stage training process involving distillation can stabilize training.

Yadi Wen, Tianxin Li, Enji Liang +2

Inference & Quantization Speech & Audio Training Efficiency & Optimization

May 3, 2026

NVIDIA2w ago·also TAU

nvPAX: Constrained Optimization for Dynamic Power Allocation in Hierarchical and Multi-Tenant Systems

Hierarchical power allocation in datacenters can achieve near-perfect satisfaction ratios, even with oversubscription, by using a novel three-phase QP/LP optimization policy.

Hadar Sivan, Gil Shabat, Yoel Shkolnisky

Distributed Systems & Hardware Training Efficiency & Optimization

2w ago·also Microsoft Research, Forschungszentrum Jülich GmbH, Snowflake

Cross-Layer Energy Analysis of Multimodal Training on Grace Hopper Superchips

Optimizing for runtime in multimodal training can be energy-inefficient, as data movement and overlap on Grace Hopper chips dominate energy consumption, not raw compute.

Mahmoud Ahmed, Sameh Abdulah, Olatunji Ruwase +4

Distributed Systems & Hardware Multimodal Models Training Efficiency & Optimization

Uni- versity of California2w ago·also CMU ML, UMich

Stochastic Sparse Attention for Memory-Bound Inference

Attention bottlenecks in long-context decoding? SANTA slashes memory bandwidth demands by stochastically sampling value vectors, achieving 1.5x speedups without sacrificing accuracy.

Kyle Lee, Corentin Delacour, Kevin Callahan-Coray +5

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Rui He +22w ago

Linear-Time Global Visual Modeling without Explicit Attention

Attention might just be a cleverly disguised MLP: this work shows you can ditch the quadratic complexity and still get Transformer-level performance by dynamically predicting parameters in standard network layers.

Rui He, Dongchen Han, Gao Huang

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

May 1, 2026

Sai Niranjan Ramachandran +13w ago

Trees to Flows and Back: Unifying Decision Trees and Diffusion Models

Decision trees and diffusion models are secretly doing the same thing: optimizing a shared objective called Global Trajectory Score Matching.

Sai Niranjan Ramachandran, S. Sra

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Wenda Chu +63w ago

End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer

Jointly training the tokenizer and autoregressive model slashes ImageNet FID to 1.48, finally making end-to-end autoregressive image generation competitive.

Wenda Chu, Bingliang Zhang, Jiaqi Han +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization