April 20 – April 27, 2026

Training Efficiency & Optimization - Weekly Roundup

100 papers published across 7 labs.

1725% acceleration

Selected Labs publishing this week

BAIR1 Tsinghua AI1 Meta AI1 DAMO1 Stanford HAI1

Top Papers

Apr 25, 2026

Emre Ardiç +2Apr 25, 2026·also Gebze Technical University

Enhanced Privacy and Communication Efficiency in Non-IID Federated Learning With Adaptive Quantization and Differential Privacy

Laplacian DP and adaptive quantization can slash federated learning communication costs by over 50% without sacrificing accuracy or privacy, even with non-IID data.

Emre Ardiç, Emre Ardıç, Yakup Genç

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

Apr 27, 2026

Learning from Noisy Preferences: A Semi-Supervised Learning Approach to Direct Preference Optimization

Compressing multi-dimensional human preferences into single binary labels severely degrades DPO training, but a semi-supervised approach can recover state-of-the-art performance without additional human annotation.

Xinxing Liu, Xinxin Liu, Ming Li +3

Computer Vision RLHF & Preference Learning Training Efficiency & Optimization

M. Marsh +2Apr 27, 2026

Learning with Embedded Linear Equality Constraints via Variational Bayesian Inference

Guaranteeing physical constraints in your ML model doesn't have to sacrifice uncertainty quantification – this Bayesian method bakes in linear equalities while shrinking credible intervals.

M. Marsh, B. Chachuat, Antonio E. del-Rio Chanona

Scientific Discovery & Drug Design Training Efficiency & Optimization

Christian LysenstoenApr 27, 2026

Feasible-First Exploration for Constrained ML Deployment Optimization in Crash-Prone Hierarchical Search Spaces

Standard black-box optimization falls apart when deploying ML models under tight constraints in crash-prone environments; TBA offers a robust, feasible-first alternative that actually works.

Christian Lysenstoen

Inference & Quantization Training Efficiency & Optimization

Zeyu BaiApr 27, 2026

Spark Policy Toolkit: Semantic Contracts and Scalable Execution for Policy Learning in Spark

Spark Policy Toolkit unlocks scalable policy learning in Spark by guaranteeing consistent results even with distributed execution, finally making it possible to apply complex policy learning techniques to large datasets.

Zeyu Bai

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

All Papers (100)

Apr 27, 2026

Learning from Noisy Preferences: A Semi-Supervised Learning Approach to Direct Preference Optimization

Xinxing Liu, Xinxin Liu, Ming Li +3

Computer Vision RLHF & Preference Learning Training Efficiency & Optimization

M. Marsh +2Apr 27, 2026

Learning with Embedded Linear Equality Constraints via Variational Bayesian Inference

Guaranteeing physical constraints in your ML model doesn't have to sacrifice uncertainty quantification – this Bayesian method bakes in linear equalities while shrinking credible intervals.

M. Marsh, B. Chachuat, Antonio E. del-Rio Chanona

Scientific Discovery & Drug Design Training Efficiency & Optimization

Christian LysenstoenApr 27, 2026

Feasible-First Exploration for Constrained ML Deployment Optimization in Crash-Prone Hierarchical Search Spaces

Standard black-box optimization falls apart when deploying ML models under tight constraints in crash-prone environments; TBA offers a robust, feasible-first alternative that actually works.

Christian Lysenstoen

Inference & Quantization Training Efficiency & Optimization

Zeyu BaiApr 27, 2026

Spark Policy Toolkit: Semantic Contracts and Scalable Execution for Policy Learning in Spark

Zeyu Bai

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

Minkyu Kim +7Apr 27, 2026

Rethinking Layer Redundancy in Large Language Models: Calibration Objectives and Search for Depth Pruning

The secret to effectively pruning LLMs might not be *how* you search for redundant layers, but *what* you're optimizing for.

Minkyu Kim, Vincent-Daniel Yun, Youngrae Kim +5

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

D. B. Rokhlin +3Apr 27, 2026

Dynamic Regret for Online Regression in RKHS via Discounted VAW and Subspace Approximation

Achieve dynamic regret bounds for online regression in RKHS by combining discounted VAW with finite-dimensional subspace approximations, offering a practical approach for time-varying comparisons.

D. B. Rokhlin, Dmitry B. Rokhlin, Georgiy A. Karapetyants +1

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Miao Lin +4Apr 27, 2026

Laplace-Bridged Randomized Smoothing for Fast Certified Robustness

Edge devices can now achieve up to 494x faster certified robustness with Laplace-Bridged Smoothing, making formally verified AI deployments practical in resource-constrained settings.

Miao Lin, MD Saifur Rahman Mazumder, Fengyi Yu +2

Inference & Quantization Red-Teaming & Adversarial Robustness Training Efficiency & Optimization

Apr 27, 2026

Compute Aligned Training: Optimizing for Test Time Inference

Training LLMs to explicitly optimize for how they're *actually* used at inference time unlocks substantial performance gains compared to standard fine-tuning.

Adam Ousherovitch, Ambuj Tewari

Inference & Quantization RLHF & Preference Learning Training Efficiency & Optimization

A. Sanford +3Apr 27, 2026

Data-Driven Hamiltonian Reduction for Superconducting Qubits via Meta-Learning

Forget perturbation theory: HAML meta-learns effective qubit Hamiltonians directly from multi-mode simulations, enabling accurate characterization even when traditional methods break down.

A. Sanford, Andrew Kamen, Frederic T. Chong +1

Scientific Discovery & Drug Design Training Efficiency & Optimization

Dongze Wu +2Apr 27, 2026

CoreFlow: Low-Rank Matrix Generative Models

Learning generative models for high-dimensional matrices doesn't have to be a computational nightmare: CoreFlow achieves state-of-the-art results in low-data regimes by learning shared low-rank structure.

Dongze Wu, Linglingzhi Zhu, Yao Xie

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Parsa Ashrafi Fashi +19Apr 27, 2026

Long-Context Aware Upcycling: A New Frontier for Hybrid LLM Scaling

Forget training from scratch: HyLo lets you breathe new (long-context) life into your existing Transformer LLMs, achieving 32x context extension and 90% KV-cache reduction.

Parsa Ashrafi Fashi, Parsa Ashrafi Fashi, Utkarsh Saxena +17

Architecture Design (Transformers, SSMs, MoE)Scaling Laws & Emergent Abilities Training Efficiency & Optimization

Orhan Demirci +1Apr 27, 2026

ADE: Adaptive Dictionary Embeddings -- Scaling Multi-Anchor Representations to Large Language Models

Multi-anchor word embeddings, previously impractical for LLMs, can now outperform standard embeddings with 98% fewer parameters and a 40x smaller embedding layer.

Orhan Demirci, Sezer Aptourachman

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Apr 27, 2026·also BAIR, Aalto, Pitt

Personalized Worked Example Generation from Student Code Submissions using Pattern-based Knowledge Components

Forget hand-crafted examples: this system automatically generates worked examples tailored to student errors by mining common code patterns.

Griffin Pitts, Griffin Pitts, Muntasir Hoq +10

Code Generation & Program Synthesis Training Efficiency & Optimization

Apr 27, 2026

A Survey on Split Learning for LLM Fine-Tuning: Models, Systems, and Privacy Optimizations

Split learning offers a surprisingly viable path to fine-tuning LLMs on sensitive data without breaking the bank or sacrificing privacy.

Zihan Liu, Yizhen Wang, Xiu Tang +1

Distributed Systems & Hardware Natural Language Processing Training Efficiency & Optimization

Mengnan Zhao +8Apr 27, 2026

Unveiling the Backdoor Mechanism Hidden Behind Catastrophic Overfitting in Fast Adversarial Training

Catastrophic overfitting in fast adversarial training isn't just overfitting – it's a backdoor, and now we can use backdoor defenses to fix it.

Mengnan Zhao, Mengnan Zhao, Lihe Zhang +6

Red-Teaming & Adversarial Robustness Training Efficiency & Optimization

Mengnan Zhao +10Apr 27, 2026

Mitigating Error Amplification in Fast Adversarial Training

Low-confidence training samples are secretly sabotaging your fast adversarial training, leading to catastrophic overfitting and a worse robustness-accuracy trade-off.

Mengnan Zhao, Mengnan Zhao, Lihe Zhang +8

Red-Teaming & Adversarial Robustness Training Efficiency & Optimization

Fang Wan +7Apr 27, 2026·also PKU

asRoBallet: Closing the Sim2Real Gap via Friction-Aware Reinforcement Learning for Underactuated Spherical Dynamics

Zero-shot Sim2Real transfer for a humanoid ballbot is now possible thanks to a friction-aware RL framework and high-fidelity simulation that models omni-wheel mechanics.

Fang Wan, Guangyi Huang, Tianyu Wu +5

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

Xiaohua Zhao +3Apr 27, 2026

Projected Attainable Speed Space: A Driving Efficiency Metric Connecting Instantaneous Evaluation to Travel Time

Autonomous vehicles can drive more efficiently by using a new metric that links real-time acceleration decisions to overall travel time.

Xiaohua Zhao, Zhaowei Huang, Chen Chen +1

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

Apr 27, 2026·also Huawei

SDSL-Solver: Scalable Distributed Sparse Linear Solvers for Large-Scale Interior Point Methods

Solving massive optimization problems just got a whole lot faster: SDSL-Solver achieves up to 97x speedups over PARDISO by distributing sparse linear system solves across multiple nodes.

Shaofeng Yang, Yunting Wang, Yingying Cheng +3

Distributed Systems & Hardware Training Efficiency & Optimization

Chen Feng +19Apr 27, 2026·also Nankai University, UC Santa Cruz

FreeScale: Distributed Training for Sequence Recommendation Models with Minimal Scaling Cost

Sequence recommendation models can achieve near-perfect scaling efficiency in distributed training, slashing wasted GPU cycles by up to 90%.

Chen Feng, Haoli Zhang, Sh. B. Ali-zade +17

Distributed Systems & Hardware Recommendation & Information Retrieval Training Efficiency & Optimization

Taeyoon Kim +4Apr 27, 2026

KubePACS: Kubernetes Cluster Using Performant, Highly Available, and Cost Efficient Spot Instances

Stop paying a 55% performance-per-dollar premium: KubePACS optimizes Kubernetes spot instance provisioning for cost, performance, and availability, blowing away existing solutions.

Taeyoon Kim, Kyumi Kim, Enrique Molina-Gim'enez +2

Distributed Systems & Hardware Training Efficiency & Optimization

Tsinghua AIApr 27, 2026

FlashOverlap: Minimizing Tail Latency in Communication Overlap for Distributed LLM Training

FlashOverlap shatters the tail latency bottleneck in distributed LLM training by orchestrating peer-to-peer communication with fine-grained computation overlap.

Rezaul Karim, Austin Wen, Zongzuo Wang +3

Distributed Systems & Hardware Training Efficiency & Optimization

Milo Liebster +2Apr 27, 2026

D\'ej\`a Vu Packing: Optimizing FPGA Logic Clustering Runtime via Pattern Memoization

FPGA CAD tools waste enormous time re-checking the same cluster packings, but a simple memoization trick can slash runtime by up to 29x.

Milo Liebster, Amin Mohaghegh, Andrew Boutros

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Apr 27, 2026

Computational Design and Experimental Validation of Photoactive PARP1 Inhibitors

Computation can now design light-activated drugs: a novel compound achieved a 15x boost in cancer target inhibition upon green light exposure.

Simon Axelrod, Miroslav Kavspar, Krist'yna Jel'inkov'a +8

Scientific Discovery & Drug Design Training Efficiency & Optimization

Liang Xu +4Apr 27, 2026

Speech Enhancement Based on Drifting Models

Ditch the slow sampling: DriftSE achieves state-of-the-art speech enhancement in a single step, outperforming diffusion models with a novel equilibrium-based approach.

Liang Xu, Diego Caviedes-Nozal, B. Kleijn +2

Speech & Audio Training Efficiency & Optimization

T. Grossman +3Apr 27, 2026

DiffuSAM: Diffusion-Based Prompt-Free SAM2 for Few-Shot and Source-Free Medical Image Segmentation

Ditch the prompts: DiffuSAM adapts SAM2 for medical image segmentation by synthesizing mask embeddings with a diffusion model, achieving strong performance without fine-tuning or expert input.

T. Grossman, N. Cahan, Lev Ayzenberg +1

Computer Vision Scientific Discovery & Drug Design Training Efficiency & Optimization

Chenglong Chu +34Apr 27, 2026·also Kuaishou

Kwai Summary Attention Technical Report

Sub-linear attention is now possible without sacrificing complete long-range dependency retention, thanks to learnable summary tokens that compress context.

Chenglong Chu, Guorui Zhou, Guowang Zhang +32

Architecture Design (Transformers, SSMs, MoE)Recommendation & Information Retrieval Training Efficiency & Optimization

Meta AIApr 27, 2026

Versioned Late Materialization for Ultra-Long Sequence Training in Recommendation Systems at Scale

Storing user interaction histories in a normalized, immutable tier and reconstructing sequences just-in-time slashes data infrastructure costs and unlocks the potential of ultra-long sequence DLRMs.

Liang Guo, Ge Song, Litao Deng +8

Distributed Systems & Hardware Recommendation & Information Retrieval Training Efficiency & Optimization

Tobias A. Farger +2Apr 27, 2026

Exploiting Differential Flatness for Efficient Learning-based Model Predictive Control of Constrained Multi-Input Control Affine Systems

Achieve real-time learning-based control of complex robotic systems by exploiting differential flatness for dramatic speedups in MPC computation.

Tobias A. Farger, Adam W. Hall, Angela P. Schoellig

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

Apr 27, 2026·also SUSTech, United Nova Technology

CF-VLA: Efficient Coarse-to-Fine Action Generation for Vision-Language-Action Policies

Forget slow, multi-step action generation: CF-VLA's coarse-to-fine approach slashes latency by 75% while boosting real-robot success rates to a new high of 83%.

Fan Du, Feng Yan, Jianxiong Wu +6

Multimodal Models Robotics & Embodied AI Training Efficiency & Optimization

Y. Baba +1Apr 27, 2026

Point-MF: One-step Point Cloud Generation from a Single Image via Mean Flows

Achieve millisecond-level 3D point cloud reconstruction from a single image without sacrificing quality, blowing past diffusion model latency.

Y. Baba, Keiji Yanai

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

DAMOApr 27, 2026

TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents

Vanilla on-policy distillation falls apart in multi-turn settings due to compounding errors, but a simple curriculum on trajectory length fixes it, even letting students beat their teachers.

Jiaqi Wang, Wenhao Zhang, Weijie Shi +2

Inference & Quantization Tool Use & Agents Training Efficiency & Optimization

Chenkai Pan +9Apr 27, 2026

Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora

LLMs can be systematically debugged and improved by treating training data as code, allowing for targeted "patches" that fix concept-level gaps and reasoning errors.

Chenkai Pan, Xing Xu, Xinglong Xu +7

Code Generation & Program Synthesis Data Curation & Synthetic Data Training Efficiency & Optimization

Institut Polytechnique de ParisApr 27, 2026

S-SONDO: Self-Supervised Knowledge Distillation for General Audio Foundation Models

Shrinking massive audio foundation models by up to 61x is now possible without significant performance loss, thanks to a novel self-supervised distillation approach that works directly on embeddings.

Mohammed Ali El Adlouni, Aurian Quelennec, Pierre Chouteau +2

Inference & Quantization Speech & Audio Training Efficiency & Optimization

Apr 27, 2026·also ICT CAS, USTC

TACO: Efficient Communication Compression of Intermediate Tensors for Scalable Tensor-Parallel LLM Training

Squeezing intermediate tensors with FP8 quantization and adaptive transforms can nearly double the throughput of tensor-parallel LLM training without sacrificing accuracy.

Man Liu, Xingjian Tian, Bing Lu +6

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

Apr 25, 2026

Stanford HAIApr 25, 2026

V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think

ELBO-based reinforcement learning, previously dismissed for visual generation, can actually outperform MDP-based methods for aligning denoising generative models with human preferences.

Bingda Tang, Yuhui Zhang, Xiaohan Wang +4

RLHF & Preference Learning Training Efficiency & Optimization

Emre Ardiç +2Apr 25, 2026·also Gebze Technical University

Enhanced Privacy and Communication Efficiency in Non-IID Federated Learning With Adaptive Quantization and Differential Privacy

Laplacian DP and adaptive quantization can slash federated learning communication costs by over 50% without sacrificing accuracy or privacy, even with non-IID data.

Emre Ardiç, Emre Ardıç, Yakup Genç

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

DeepMindApr 25, 2026·also Co-leads

ProEval: Proactive Failure Discovery and Efficient Performance Estimation for Generative AI Evaluation

Generative AI evaluation can be sped up by 8-65x without sacrificing accuracy by proactively focusing on the most informative test cases using a pre-trained Gaussian Process surrogate model.

Yizheng Huang, Wenjun Zeng, Aditi Kumaresan +1

Eval Frameworks & Benchmarks Training Efficiency & Optimization

Apr 24, 2026

Ze Chen +3Apr 24, 2026·also Communication University of China

FlowAnchor: Stabilizing the Editing Signal for Inversion-Free Video Editing

FlowAnchor makes flow-based video editing robust to multi-object scenes and long sequences by stabilizing the editing signal, opening the door to more complex and controllable video manipulation.

Ze Chen, Lan Chen, Yuanhang Li +1

Computer Vision Training Efficiency & Optimization

Apr 23, 2026

Paul-Tiberiu Iordache +1Apr 23, 2026

Fine-Tuning Regimes Define Distinct Continual Learning Problems

The best continual learning method for your task might depend more on *how much* of the model you fine-tune than *which* regularization strategy you use.

Paul-Tiberiu Iordache, Elena Burceanu

Eval Frameworks & Benchmarks Training Efficiency & Optimization

Apr 23, 2026

Low-Rank Adaptation Redux for Large Models

Signal processing offers a surprisingly effective lens for understanding and improving LoRA, the reigning champ of parameter-efficient fine-tuning.

Bingcong Li, Yilang Zhang, Georgios B. Giannakis

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Akash Kundu +1Apr 23, 2026

Replay-buffer engineering for noise-robust quantum circuit optimization

Forget painstakingly tuning RL algorithms for quantum circuit optimization – smart replay buffer engineering alone can slash training time by up to 90% and boost sample efficiency by 32x.

Akash Kundu, Sebastian Feld

Scientific Discovery & Drug Design Training Efficiency & Optimization

Di Wu +2Apr 23, 2026

Beyond Expected Information Gain: Stable Bayesian Optimal Experimental Design with Integral Probability Metrics and Plug-and-Play Extensions

Ditch KL divergence for IPMs in Bayesian experimental design and watch your credible sets tighten and your designs stabilize, even when your model's a bit off.

Di Wu, Ling Liang, Haizhao Yang

Scientific Discovery & Drug Design Training Efficiency & Optimization

Florian Holeczek +4Apr 23, 2026

GFlowState: Visualizing the Training of Generative Flow Networks Beyond the Reward

Uncover hidden GFlowNet training dynamics with GFlowState, a visual analytics tool that reveals how these models explore the sample space and shift sampling probabilities.

Florian Holeczek, A. Hinterreiter, A. Hernandez-Garcia +2

Interpretability & Mechanistic Interp Scientific Discovery & Drug Design Training Efficiency & Optimization

Jian Cheng Wong +5Apr 23, 2026

Transferable Physics-Informed Representations via Closed-Form Head Adaptation

Solve new PDEs 100x faster with 10x less error by learning a transferable PINN representation and adapting to new equations with a single closed-form calculation.

Jian Cheng Wong, Isaac Yin Chung Lai, P. Chiu +3

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

Apr 23, 2026

There Will Be a Scientific Theory of Deep Learning

Forget philosophical debates: a practical "learning mechanics" is crystallizing to explain *how* deep learning works, not just *why* it should.

James B. Simon, D. Kunin, Alexander Atanasov +11

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

P. Nganjimi +5Apr 23, 2026

Geometric Characterisation and Structured Trajectory Surrogates for Clinical Dataset Condensation

Ditching noisy SGD trajectories for smooth Bezier curves unlocks better dataset condensation, especially when data is scarce.

P. Nganjimi, Andrew A. S. Soltan, Danielle Belgrave +3

Data Curation & Synthetic Data Training Efficiency & Optimization

Apr 23, 2026

Transferable SCF-Acceleration through Solver-Aligned Initialization Learning

ML models can accurately predict quantum properties out-of-distribution, but still fail to accelerate SCF convergence – until now.

Eike S. Eberhard, Viktor Kotsev, Timm Guthle +1

Scientific Discovery & Drug Design Training Efficiency & Optimization

Benedikt Bollig +3Apr 23, 2026

Promoting Simple Agents: Ensemble Methods for Event-Log Prediction

N-gram models can rival neural networks in event log prediction, but the secret sauce is a smart ensemble method that dynamically promotes the best model during inference.

Benedikt Bollig, Matthias Fugger, Thomas Nowak +1

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

E. E. KrauseApr 23, 2026

Geometric Monomial (GEM): a family of rational 2N-differentiable activation functions

Forget ReLU's rough edges: a new family of smooth activation functions, GEM, closes the gap with GELU and even outperforms it in some cases, revealing a surprising architecture-dependent sweet spot for smoothness.

E. E. Krause

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Eli Gildish +2Apr 23, 2026

Dilated CNNs for Periodic Signal Processing: A Low-Complexity Approach

Achieve state-of-the-art periodic signal denoising with a single, lightweight dilated CNN that generalizes across frequencies via resampling.

Eli Gildish, Michael Grebshtein, I. Makienko

Architecture Design (Transformers, SSMs, MoE)Speech & Audio Training Efficiency & Optimization

Heng YangApr 23, 2026

Tempered Sequential Monte Carlo for Trajectory and Policy Optimization with Differentiable Dynamics

Controller design can be effectively framed as inference, enabling efficient trajectory and policy optimization via tempered sampling.

Heng Yang

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

Nusrat Yasmin Nadia +5Apr 23, 2026

Hybrid Deep Learning Approach for Coupled Demand Forecasting and Supply Chain Optimization

Integrating deep learning forecasting with MILP optimization slashes inventory costs by 5.4% and stockouts by 27.5% in textile and PPE supply chains.

Nusrat Yasmin Nadia, Md Habibul Arif, H. R. Rabby +3

Tool Use & Agents Training Efficiency & Optimization World Models & Planning

Sukesh SubaharanApr 23, 2026

Dynamical Priors as a Training Objective in Reinforcement Learning

RL policies don't have to be temporally incoherent messes: shaping action probabilities with dynamical priors unlocks structured, interpretable decision-making.

Sukesh Subaharan

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

Apr 23, 2026·also Basque Center for Applied Mathematics (BCAM), Ikerbasque, University of the Basque Country (UPV/EHU)

A Green-Integral-Constrained Neural Solver with Stochastic Physics-Informed Regularization

PINNs can now efficiently solve highly oscillatory wave equations in heterogeneous media, thanks to a Green's function-based integral formulation that cuts computation by 10x and avoids absorbing boundary layers.

Mohammad Mahdi Abedi, David Pardo, T. Alkhalifah

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

Apr 23, 2026

Even More Guarantees for Variational Inference in the Presence of Symmetries

Even when your variational approximation is wrong, symmetries in the target distribution can guarantee you still get the mean right.

Lena Zellinger, Antonio Vergari

Training Efficiency & Optimization

Wei Jiang +1Apr 23, 2026

Sub-Token Routing in LoRA for Adaptation and Query-Aware KV Compression

Forget compressing entire tokens – selectively routing *parts* of tokens based on query relevance unlocks better compression-quality tradeoffs in LoRA-adapted transformers.

Wei Jiang, Wei Wang

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Prince Sultan UniversityApr 23, 2026

Trust-SSL: Additive-Residual Selective Invariance for Robust Aerial Self-Supervised Learning

Stop punishing your model for disagreeing with corrupted data – Trust-SSL learns better representations by treating alignment with degraded views as a residual learning problem, not a hard constraint.

Wadii Boulila, A. Ammar, Bilel Benjdira +1

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

Pedro Seber +1Apr 23, 2026

Improving Performance in Classification Tasks with LCEN and the Weighted Focal Differentiable MCC Loss

Forget cross-entropy: a differentiable MCC loss function can boost your classification accuracy by nearly 5% on F1 score and 8.5% on MCC.

Pedro Seber, Richard D. Braatz

Interpretability & Mechanistic Interp Training Efficiency & Optimization

Abbas Zeitoun +2Apr 23, 2026

Hyperloop Transformers

Halving the parameter count of LLMs without sacrificing performance is now possible with Hyperloop Transformers, thanks to looped layers and hyper-connected residual streams.

Abbas Zeitoun, Lucas Torroba-Hennigen, Yoon Kim

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Yichen Zhou +1Apr 23, 2026

CLT-Optimal Parameter Error Bounds for Linear System Identification

Existing bounds on system identification are too pessimistic, but a new martingale-based analysis unlocks near-optimal finite-sample guarantees for parameter estimation in linear dynamical systems.

Yichen Zhou, Stephen Tu

Training Efficiency & Optimization

Neeraj Gangwar +6Apr 23, 2026

GiVA: Gradient-Informed Bases for Vector-Based Adaptation

Vector-based fine-tuning just got an 8x speed boost, rivaling LoRA's performance with a fraction of the parameters, thanks to a clever gradient-informed initialization.

Neeraj Gangwar, Rishabh Deshmukh, Michael Shavlovsky +4

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Shady E. Ahmed +15Apr 23, 2026·also USTC

Assessing Emulator Design and Training for Modal Aerosol Microphysics Parameterizations in E3SMv2

Simple neural networks can accurately emulate complex aerosol microphysics in climate models, but only with careful attention to scaling and training convergence.

Shady E. Ahmed, Shady E. Ahmed, Hui Wan +13

Scientific Discovery & Drug Design Training Efficiency & Optimization

Ziyang Wei +3Apr 23, 2026

Refining Covariance Matrix Estimation in Stochastic Gradient Descent Through Bias Reduction

Forget slow convergence and inaccessible Hessians: this new de-biased covariance estimator turbocharges SGD with faster, more accurate uncertainty estimates.

Ziyang Wei, Wanrong Zhu, Jing Lyu +1

Training Efficiency & Optimization

Eleanor P. Wiesler +1Apr 23, 2026

Graph Neural Network-Informed Predictive Flows for Faster Ford-Fulkerson and PAC-Learnability

Forget repeatedly re-running inference on residual graphs: this GNN-guided Ford-Fulkerson algorithm learns edge importance probabilities to dramatically accelerate max-flow computation and image segmentation.

Eleanor P. Wiesler, Trace Baxley

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Costin-Andrei Oncescu +5Apr 23, 2026

The Recurrent Transformer: Greater Effective Depth and Efficient Decoding

Recurrent Transformers let you trade model depth for width, slashing KV cache memory footprint and inference latency without sacrificing performance.

Costin-Andrei Oncescu, Depen Morwani, Samy Jelassi +3

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Muhy Eddin Za’ter +3Apr 23, 2026

A Multi-Stage Warm-Start Deep Learning Framework for Unit Commitment

A transformer-based deep learning approach can not only drastically accelerate Unit Commitment problem-solving but also, surprisingly, find lower-cost operational schedules than traditional MILP solvers in certain instances.

Muhy Eddin Za’ter, Anna Van Boven, B. Hodge +1

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Guilin Deng +14Apr 23, 2026

Toward Efficient Membership Inference Attacks against Federated Large Language Models: A Projection Residual Approach

FedLLMs, thought to be safer due to data localization, are shockingly vulnerable: a new attack achieves near 100% membership inference accuracy, even with differential privacy.

Guilin Deng, Guilin Deng, Silong Chen +12

Distributed Systems & Hardware Red-Teaming & Adversarial Robustness Training Efficiency & Optimization

Dat To-Thanh +9Apr 23, 2026

Bridging the Training-Deployment Gap: Gated Encoding and Multi-Scale Refinement for Efficient Quantization-Aware Image Enhancement

Achieve high-fidelity image enhancement on mobile devices even after quantization by training a model that anticipates and adapts to low-precision representations.

Dat To-Thanh, Dat To-Thanh, Nghia Nguyen-Trong +7

Computer Vision Inference & Quantization Training Efficiency & Optimization

Yuanjie Lyu +6Apr 23, 2026

AgenticQwen: Training Small Agentic Language Models with Dual Data Flywheels for Industrial-Scale Tool Use

Forget scaling laws – AgenticQwen proves that clever training with dual data flywheels can enable small language models to rival giants in real-world agentic tasks.

Yuanjie Lyu, Chengyu Wang, Haonan Zheng +4

Data Curation & Synthetic Data Tool Use & Agents Training Efficiency & Optimization

Minghao Yin +4Apr 23, 2026

Sculpt4D: Generating 4D Shapes via Sparse-Attention Diffusion Transformers

Forget generating static shapes – Sculpt4D now lets you efficiently sculpt dynamic 4D objects with state-of-the-art temporal coherence.

Minghao Yin, Wenbo Hu, Jiale Xu +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Apr 23, 2026

Reshoot-Anything: A Self-Supervised Model for In-the-Wild Video Reshooting

Training a video reshooting model on internet-scale monocular videos is now possible, thanks to a clever self-supervision trick that generates multi-view training data from a single video.

Avinash Paliwal, Adithya Iyer, Shivin Yadav +2

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

Ying Yang +2Apr 23, 2026

Back to Source: Open-Set Continual Test-Time Adaptation via Domain Compensation

Domain shifts and novel classes at test time can be tamed by nudging features back towards the source distribution, even for out-of-distribution examples.

Ying Yang, Chaoqi Chen, Hui Huang

Computer Vision Training Efficiency & Optimization

Yupeng Zhang +5Apr 23, 2026

VFM$^{4}$SDG: Unveiling the Power of VFMs for Single-Domain Generalized Object Detection

Frozen vision foundation models can be surprisingly effective at improving out-of-domain object detection by stabilizing relational modeling and semantic-spatial alignment in the detector.

Yupeng Zhang, Ruize Han, Ning Guo +3

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

Jingfang Li +6Apr 23, 2026

UHR-DETR: Efficient End-to-End Small Object Detection for Ultra-High-Resolution Remote Sensing Imagery

Achieve a 10x speedup in detecting tiny objects in massive satellite images without sacrificing accuracy, even on a single GPU.

Jingfang Li, Haoran Zhu, Wen Yang +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Jinrang Jia +2Apr 23, 2026·also Corresponding author

You Only Gaussian Once: Controllable 3D Gaussian Splatting for Ultra-Densely Sampled Scenes

Current 3D Gaussian Splatting methods are too unpredictable for real-world use, but YOGO makes them deterministic and production-ready.

Jinrang Jia, Zhenjia Li, Yifeng Shi

Computer Vision Inference & Quantization Training Efficiency & Optimization

M. Kada +4Apr 23, 2026

Teacher-Guided Routing for Sparse Vision Mixture-of-Experts

Steal accuracy from dense models and stabilize MoE training with a simple teacher-guided routing scheme that combats gradient starvation.

M. Kada, Ryota Yoshihashi, Satoshi Ikehata +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Dhruv Parikh +3Apr 23, 2026

Latent Denoising Improves Visual Alignment in Large Multimodal Models

LMMs can gain surprising robustness and visual understanding by learning to denoise corrupted visual tokens, even without extra inference overhead.

Dhruv Parikh, Jacob Fein-Ashley, Rajgopal Kannan +1

Computer Vision Multimodal Models Training Efficiency & Optimization

Jebacyril Arockiaraj +2Apr 23, 2026

ImageHD: Energy-Efficient On-Device Continual Learning of Visual Representations via Hyperdimensional Computing

Edge devices can now learn continuously from visual data with 40x faster speed and 380x better energy efficiency, thanks to a novel FPGA accelerator design.

Jebacyril Arockiaraj, Dhruv Parikh, Viktor K. Prasanna

Computer Vision Inference & Quantization Training Efficiency & Optimization

Apr 23, 2026·also Ritsumeikan University

WildSplatter: Feed-forward 3D Gaussian Splatting with Appearance Control from Unconstrained Images

Unlock real-time, high-quality 3D scene reconstruction from unconstrained images with varying lighting, thanks to a feed-forward Gaussian Splatting model that learns appearance embeddings.

Yuki Fujimura, Takahiro Kushida, Kazuya Kitano +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Kashish Mittal +5Apr 23, 2026

Optimizing High-Throughput Distributed Data Pipelines for Reproducible Deep Learning at Scale

Data loading bottlenecks can strangle your GPU utilization down to 10%, but a few smart optimizations can unlock a 6x speedup.

Kashish Mittal, Di Yu, Roozbeh Ketabi +3

Data Curation & Synthetic Data Distributed Systems & Hardware Training Efficiency & Optimization

IITApr 23, 2026·also Edinburgh

Leveraging SIMD for Accelerating Large-number Arithmetic

SIMD parallelism can finally unlock substantial speedups in large-number arithmetic by rethinking algorithms around data-parallel operations, yielding up to 19.3% throughput gains in scientific computing.

Subhrajit Das, Abhishek Bichhawat, Yuvraj Patel

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

Hongyao Liu +2Apr 23, 2026

An Efficient Wireless iBCI Headstage with Adaptive ADC Sample Rate

A server-driven adaptive sampling approach slashes power consumption in wireless iBCIs by 40mW while *improving* decoding accuracy.

Hongyao Liu, Junyi Wang, L. Zhai

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

Mirage Mountain Technologies IncApr 23, 2026

Listen and Chant Before You Read: The Ladder of Beauty in LM Pre-Training

Forget text-only pre-training: training on music *first* can dramatically accelerate language learning in small language models.

Yoshinori Nomura

Architecture Design (Transformers, SSMs, MoE)Speech & Audio Training Efficiency & Optimization

Yilong Chen +12Apr 23, 2026·also CAS

Beyond N-gram: Data-Aware X-GRAM Extraction for Efficient Embedding Parameter Scaling

By dynamically injecting frequency-aware n-gram features, X-GRAM achieves state-of-the-art accuracy with smaller embedding tables, offering a practical path to scaling memory-augmented architectures.

Yilong Chen, Yan Xie, Zitian Gao +10

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Arthur Douillard +16Apr 23, 2026

Decoupled DiLoCo for Resilient Distributed Pre-training

Achieve zero global downtime in large-scale pre-training, even with millions of simulated chip failures, by decoupling learners and asynchronously aggregating parameter updates.

Arthur Douillard, Keith Rush, Yani Donchev +14

Distributed Systems & Hardware Training Efficiency & Optimization

UWApr 23, 2026

An effective variant of the Hartigan $k$-means algorithm

A surprisingly simple tweak to Hartigan's k-means algorithm unlocks another 2-5% accuracy boost, especially when clustering high-dimensional data.

Training Efficiency & Optimization

Apr 22, 2026

Sina Gholami +4Apr 22, 2026

FedSIR: Spectral Client Identification and Relabeling for Federated Learning with Noisy Labels

Spectral analysis of client feature representations can identify and relabel noisy data in federated learning, outperforming existing noise-tolerant loss and loss-dynamic approaches.

Sina Gholami, Abdulmoneam Ali, Tania Haghighi +2

Data Curation & Synthetic Data Distributed Systems & Hardware Training Efficiency & Optimization

Chao Wang +3Apr 22, 2026

Relative Entropy Estimation in Function Space: Theory and Applications to Trajectory Inference

Current evaluation metrics for trajectory inference can mislead researchers, but functional KL divergence offers a clearer, more reliable comparison of methods in sparse data conditions.

Chao Wang, Luca Nepote, Giulio Franzese +1

Scientific Discovery & Drug Design Training Efficiency & Optimization

University of LondonApr 22, 2026·also Turing Institute

Working Memory Constraints Scaffold Learning in Transformers under Data Scarcity

Fixed-width attention spans can give you better grammar and human-like reading patterns, especially when you're short on training data.

Pranava Madhyastha, Dagmar Adamcova

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Apr 22, 2026

F\textsuperscript{2}LP-AP: Fast \& Flexible Label Propagation with Adaptive Propagation Kernel

Ditch the GNN training: this label propagation method matches or beats GNN accuracy while being far more computationally efficient, even on tricky heterophilous graphs.

Yutong Shen, Ruizhe Xia, Jingyi Liu +1

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Hangzhou Dianzi UniversityApr 22, 2026

Lifecycle-Aware Federated Continual Learning in Mobile Autonomous Systems

Layer-selective rehearsal and rapid recovery strategies can boost model performance in federated learning by over 30% in real-world applications.

Beining Wu

Distributed Systems & Hardware Robotics & Embodied AI Training Efficiency & Optimization

Cognite ASApr 22, 2026·also SINTEF

Fast Bayesian equipment condition monitoring via simulation based inference: applications to heat exchanger health

Get 82x faster Bayesian inference for equipment monitoring by replacing MCMC with neural nets trained on simulated data.

Peter Collett, Alexander Johannes Stasik, Simone Casolo +1

Scientific Discovery & Drug Design Training Efficiency & Optimization World Models & Planning

Apr 22, 2026·also AWS Agentic AI Labs, UC Santa Cruz

Supplement Generation Training for Enhancing Agentic Task Performance

Forget fine-tuning behemoth LLMs for every new task – this paper shows how a tiny, nimble model generating smart supplements can unlock surprisingly strong agentic performance from frozen giants.

Young Min Cho, Daniele Bonadiman, Divya Bhargavi +8

Tool Use & Agents Training Efficiency & Optimization

Apr 22, 2026·also Oxford

Tokenised Flow Matching for Hierarchical Simulation Based Inference

Unlock 10x faster simulation-based inference in hierarchical models by training on single-site simulations and assembling synthetic multi-site data.

Giovanni Charles, Cosmo Santoni, Seth Flaxman +1

Scientific Discovery & Drug Design Training Efficiency & Optimization

Samsung R&D Institute UK (SRUK)Apr 22, 2026·also Samsung

Differentially Private Clustered Federated Learning with Privacy-Preserving Initialization and Normality-Driven Aggregation

Differentially private federated learning gets a boost: PINA achieves 2.9% higher accuracy than state-of-the-art methods by using a novel two-stage approach with privacy-preserving initialization and normality-driven aggregation.

Jie Xu, Haaris Mehmood, Rogier Van Dalen +2

Data Curation & Synthetic Data Distributed Systems & Hardware Training Efficiency & Optimization

Apr 22, 2026

MGDA-Decoupled: Geometry-Aware Multi-Objective Optimisation for DPO-based LLM Alignment

Geometry-aware optimization can dramatically improve LLM alignment by ensuring fairer trade-offs among conflicting human values.

Andor Vári-Kakas, Ji Won Park, Natasa Tagasovska

Constitutional AI & AI Ethics RLHF & Preference Learning Training Efficiency & Optimization

Apr 22, 2026

On Bayesian Softmax-Gated Mixture-of-Experts Models

Bayesian mixture-of-experts models can achieve robust density and parameter estimation with adaptive expert selection, fundamentally reshaping our approach to complex probabilistic modeling.

Nicola Bariletto, Huy Nguyen, Nhat Ho +1

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Alessandro Morosini +3Apr 22, 2026

Too Sharp, Too Sure: When Calibration Follows Curvature

Calibration can be effectively improved during training by focusing on curvature and margin dynamics, leading to better confidence estimates without sacrificing model performance.

Alessandro Morosini, Matea Gjika, Tomaso Poggio +1

Computer Vision Training Efficiency & Optimization

Apr 22, 2026

Amortized Vine Copulas for High-Dimensional Density and Information Estimation

VDC achieves high-dimensional density estimation with remarkable speed and accuracy, transforming the landscape of copula modeling.

Houman Safaai

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization