March 18 – March 25, 2026

Training Efficiency & Optimization - Weekly Roundup

100 papers published across 6 labs.

21% acceleration

Selected Labs publishing this week

AI22 Tsinghua AI2 NVIDIA1 Google Research1 DeepMind1

Top Papers

Mar 25, 2026

Yihan Wang +11w ago

WAFT-Stereo: Warping-Alone Field Transforms for Stereo Matching

Cost volumes might be overkill: WAFT-Stereo proves you can ditch them for a warping-based approach and still dominate stereo matching benchmarks with significantly improved efficiency.

Yihan Wang, Jia Deng

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Mar 20, 2026

cSuayp Talha Kocabay +11w ago

Diffutron: A Masked Diffusion Language Model for Turkish Language

A compact masked diffusion model can rival multi-billion parameter models in a morphologically rich language like Turkish, challenging the assumption that bigger is always better.

cSuayp Talha Kocabay, Talha Ruzgar Akkucs

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Chiyu Ma +91w ago

FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

LLMs can reason through chains of thought 2.5x longer and achieve 8% higher accuracy on complex math problems by optimizing for token-level influence on future trajectory behavior.

Chiyu Ma, Shuo Yang, Kexin Huang +7

Reasoning & Chain-of-Thought RLHF & Preference Learning Training Efficiency & Optimization

Mar 19, 2026

Lei Gao +61w ago

Accurate and Efficient Multi-Channel Time Series Forecasting via Sparse Attention Mechanism

Achieve state-of-the-art time series forecasting accuracy with significantly reduced memory usage and faster inference by using a sparse attention mechanism that fuses multi-modal embeddings.

Lei Gao, He Bao, Hengda Bao +4

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Shaked Perek +41w ago

Balanced Thinking: Improving Chain of Thought Training in Vision Language Models

Skip reinforcement learning and still get SOTA vision-language reasoning performance with a simple loss re-weighting scheme that cuts training time by 7x.

Shaked Perek, Ben Wiesel, Avihu Dekel +2

Multimodal Models Reasoning & Chain-of-Thought Training Efficiency & Optimization

All Papers (100)

Mar 25, 2026

Yihan Wang +11w ago

WAFT-Stereo: Warping-Alone Field Transforms for Stereo Matching

Cost volumes might be overkill: WAFT-Stereo proves you can ditch them for a warping-based approach and still dominate stereo matching benchmarks with significantly improved efficiency.

Yihan Wang, Jia Deng

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Mar 20, 2026

cSuayp Talha Kocabay +11w ago

Diffutron: A Masked Diffusion Language Model for Turkish Language

A compact masked diffusion model can rival multi-billion parameter models in a morphologically rich language like Turkish, challenging the assumption that bigger is always better.

cSuayp Talha Kocabay, Talha Ruzgar Akkucs

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Chiyu Ma +91w ago

FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

LLMs can reason through chains of thought 2.5x longer and achieve 8% higher accuracy on complex math problems by optimizing for token-level influence on future trajectory behavior.

Chiyu Ma, Shuo Yang, Kexin Huang +7

Reasoning & Chain-of-Thought RLHF & Preference Learning Training Efficiency & Optimization

Mar 19, 2026

Lei Gao +61w ago

Accurate and Efficient Multi-Channel Time Series Forecasting via Sparse Attention Mechanism

Achieve state-of-the-art time series forecasting accuracy with significantly reduced memory usage and faster inference by using a sparse attention mechanism that fuses multi-modal embeddings.

Lei Gao, He Bao, Hengda Bao +4

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Shaked Perek +41w ago

Balanced Thinking: Improving Chain of Thought Training in Vision Language Models

Skip reinforcement learning and still get SOTA vision-language reasoning performance with a simple loss re-weighting scheme that cuts training time by 7x.

Shaked Perek, Ben Wiesel, Avihu Dekel +2

Multimodal Models Reasoning & Chain-of-Thought Training Efficiency & Optimization

1w ago·also CUHK, Received 25 December 2024; revised 1

Multiscale Switch for Semi-Supervised and Contrastive Learning in Medical Ultrasound Image Segmentation.

Even with only 5% labeled data, Switch achieves ultrasound segmentation accuracy exceeding fully supervised methods, thanks to its clever multiscale and frequency-domain switching.

Jingguo Qu, Xinyang Han, Yao Pu +10

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

Chen Yaoling +41w ago

When Differential Privacy Meets Wireless Federated Learning: An Improved Analysis for Privacy and Convergence

DPWFL privacy doesn't have to diverge: this work proves it can converge to a constant even with non-convex objectives and gradient clipping.

Chen Yaoling, Yaolin Chen, Liang Hao +2

Constitutional AI & AI Ethics Distributed Systems & Hardware Training Efficiency & Optimization

1w ago

Context Bootstrapped Reinforcement Learning

Injecting demonstrations with a carefully annealed probability can drastically improve exploration in RLVR, even for tasks requiring novel reasoning or domain-specific knowledge.

Saaket Agashe, Jayanth Srinivasa, Gaowen Liu +4

Reasoning & Chain-of-Thought RLHF & Preference Learning Tool Use & Agents+1

Ezekiel Nii Noye Nortey +91w ago

An Optimised Greedy-Weighted Ensemble Framework for Financial Loan Default Prediction

Forget static model averaging: dynamically weighting ensembles based on empirical performance can significantly boost accuracy and interpretability in financial loan default prediction.

Ezekiel Nii Noye Nortey, E. Nortey, Jones Asante-Koranteng +7

Natural Language Processing Recommendation & Information Retrieval Training Efficiency & Optimization

Joerg H. Mueller +41w ago

From ex(p) to poly: Gaussian Splatting with Polynomial Kernels

Unlock 4-15% faster Gaussian Splatting without retraining your existing datasets by swapping in a polynomial kernel.

Joerg H. Mueller, J. Mueller, Martin Winter +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

1w ago

OCP: Orthogonal Constrained Projection for Sparse Scaling in Industrial Commodity Recommendation

Orthogonal constraints can rescue sparse embeddings in recommender systems from representation collapse, unlocking significant performance gains in large-scale industrial deployments.

Chen Sun, Chengqi Sun, Beiling Xu +10

Architecture Design (Transformers, SSMs, MoE)Recommendation & Information Retrieval Training Efficiency & Optimization

Anh-Tuan Dao +51w ago

Enhancing Multi-Corpus Training in SSL-Based Anti-Spoofing Models: Domain-Invariant Feature Extraction

Multi-corpus training can actually *hurt* spoofing detection, unless you strip out dataset-specific biases with this clever domain-invariant feature extraction trick.

Anh-Tuan Dao, D. Matrouf, Driss Matrouf +3

Data Curation & Synthetic Data Speech & Audio Training Efficiency & Optimization

Yuhan Ye +21w ago

Learning Decision-Sufficient Representations for Linear Optimization

Forget big data: you only need a tiny, decision-sufficient subset to guarantee near-optimal solutions in linear programs, even with uncertain costs.

Yuhan Ye, Saurabh Amin, Asuman Ozdauglar

Training Efficiency & Optimization

Wenxuan Zhang +131w ago

dTRPO: Trajectory Reduction in Policy Optimization of Diffusion Large Language Models

Scale up offline policy training for diffusion LLMs without breaking the bank: dTRPO slashes trajectory computation costs while boosting performance up to 9.6% on STEM tasks.

Wenxuan Zhang, Lemeng Wu, Changsheng Zhao +11

Natural Language Processing RLHF & Preference Learning Training Efficiency & Optimization

1w ago

Why Better Cross-Lingual Alignment Fails for Better Cross-Lingual Transfer: Case of Encoders

Cross-lingual alignment can actually *hurt* transfer learning performance because aligning embeddings doesn't necessarily help with the downstream task.

Yana Veitsman, Yihong Liu, Hinrich Schütze

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Ruishuo Chen +71w ago

PowerFlow: Unlocking the Dual Nature of LLMs via Principled Distribution Matching

Unleashing an LLM's inner creativity or laser-sharp logic is now as simple as turning a knob, thanks to a new distribution-matching method that avoids heuristic rewards.

Ruishuo Chen, Ruishuo Chen, Yu Chen +5

Natural Language Processing RLHF & Preference Learning Training Efficiency & Optimization

Aram Abrahamyan +11w ago

A Comparative Empirical Study of Catastrophic Forgetting Mitigation in Sequential Task Adaptation for Continual Natural Language Processing Systems

Naive fine-tuning leads to catastrophic forgetting, but combining replay-based and parameter isolation strategies can actually *improve* performance over joint training in continual learning for intent classification.

Aram Abrahamyan, Sachin Kumar

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Xiangyu Bai +31w ago

HORNet: Task-Guided Frame Selection for Video Question Answering with Vision-Language Models

Forget brute-force scaling: intelligently selecting just 1% of video frames can actually *improve* video QA accuracy and cut compute by 93%.

Xiangyu Bai, Bishoy M. Galoaa, Bishoy Galoaa +1

Computer Vision Multimodal Models Training Efficiency & Optimization

Minsoo Cheong +71w ago

EntropyCache: Decoded Token Entropy Guided KV Caching for Diffusion Language Models

Diffusion language models can achieve up to 26x inference speedups with almost no accuracy loss, thanks to a clever entropy-based KV caching strategy that avoids costly full forward passes.

Minsoo Cheong, Minsoo Cheong, Donghyun Son +5

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Yongwei Jiang +71w ago

Remedying Target-Domain Astigmatism for Cross-Domain Few-Shot Object Detection

Object detectors in new visual domains suffer from "astigmatism," but mimicking the human eye's foveal vision can bring them into focus.

Yongwei Jiang, Yong Jiang, Yixiong Zou +5

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

Haohua Chen +31w ago

CSSDF-Net: Safe Motion Planning Based on Neural Implicit Representations of Configuration Space Distance Field

Differentiable collision checking in configuration space, previously a major hurdle, is now achievable with zero-shot generalization thanks to CSSDF-Net.

Haohua Chen, Yixuan Zhou, Yifan Zhou +1

Computer Vision Robotics & Embodied AI Training Efficiency & Optimization+1

Junyi Yang1w ago

TurboMem: High-Performance Lock-Free Memory Pool with Transparent Huge Page Auto-Merging for DPDK

Ditch manual huge page configuration: TurboMem's lock-free design and transparent huge page auto-merging can boost packet throughput by up to 28% in DPDK.

Junyi Yang

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

1w ago

Leveraging Large Language Models for Generalizing Peephole Optimizations

LLMs can automate and significantly improve the generalization of compiler peephole optimizations, outperforming specialized program synthesis techniques.

Chun-Feng Liao, Chunhao Liao, Hong Xu +7

Code Generation & Program Synthesis Training Efficiency & Optimization

NVIDIA1w ago

PRIOR: Perceptive Learning for Humanoid Locomotion with Reference Gait Priors

Humanoid robots can now traverse complex terrains with human-like gaits, thanks to a surprisingly simple and efficient framework that eschews adversarial training.

Chenxi Han, Shilu He, Yixiao Cheng +3

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

Ziyin Zhang +81w ago

F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World

Multilingual embeddings just got a whole lot smaller and faster, with F2LLM-v2 models outperforming larger counterparts while supporting over 200 languages.

Ziyin Zhang, Ziyin Zhang, Zihan Liao +6

Natural Language Processing Open-Source Models & Weights Training Efficiency & Optimization

Rui Chai +11w ago

Regret Bounds for Competitive Resource Allocation with Endogenous Costs

Decentralized competitive allocation provably beats simpler baselines in modular systems with endogenous costs, finally justifying its use with rigorous regret bounds.

Rui Chai, Ruiya Chai

Recommendation & Information Retrieval Training Efficiency & Optimization

Google Research1w ago·also DeepMind

Seasoning Generative Models for a Generalization Aftertaste

Refining generative models with discriminator guidance provably improves generalization, offering a theoretical justification for techniques like score-based diffusion.

Hisham Husain, Valentin De Bortoli, Richard Nock

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Riccardo Saporiti +21w ago

Neural Galerkin Normalizing Flow for Transition Probability Density Functions of Diffusion Models

Unlock faster diffusion model analysis: Neural Galerkin Normalizing Flows offer a cost-effective surrogate for transition probability density functions, outperforming direct PDE solving.

Riccardo Saporiti, R. Saporiti, Fabio Nobile

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Steffen Dereich +21w ago

Uniform a priori bounds and error analysis for the Adam stochastic gradient descent optimization method

The mystery of whether Adam can provably converge on strongly convex problems is finally solved with the first unconditional error analysis.

Steffen Dereich, Thang Do, Arnulf Jentzen

Training Efficiency & Optimization

Zhilin Guo +251w ago

Matryoshka Gaussian Splatting

Get continuous level-of-detail rendering in 3D Gaussian Splatting without sacrificing top-end quality – no architectural changes needed.

Zhilin Guo, Zhilin Guo, Boqiao Zhang +23

Architecture Design (Transformers, SSMs, MoE)Computer Vision Inference & Quantization+1

Channe Chwa +21w ago

Automatic Configuration of LLM Post-Training Pipelines

LLM post-training pipelines can be configured with 10x less compute using AutoPipe, a budget-aware framework that learns from historical runs and predicts performance from early training signals.

Channe Chwa, Xinle Wu, Yao Lu

RLHF & Preference Learning Training Efficiency & Optimization

Yuyang Liu1w ago

cuGenOpt: A GPU-Accelerated General-Purpose Metaheuristic Framework for Combinatorial Optimization

LLMs can now write the code to solve your combinatorial optimization problems, thanks to a new GPU-accelerated framework accessible through a pure-Python API.

Yuyang Liu

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Danaé Broustail +61w ago

LuMamba: Latent Unified Mamba for Electrode Topology-Invariant and Efficient EEG Modeling

Foundation models for EEG can now be 377x more efficient and handle 12x longer sequences, thanks to a novel Mamba-based architecture that also cracks the code for handling variable electrode setups.

Danaé Broustail, Dana'e Broustail, Anna Tegon +4

Architecture Design (Transformers, SSMs, MoE)Speech & Audio Training Efficiency & Optimization

Vedant Pandya1w ago

Progressive Training for Explainable Citation-Grounded Dialogue: Reducing Hallucination to Zero in English-Hindi LLMs

Citation-grounded supervised fine-tuning slashes hallucination rates to zero in encoder-decoder models, proving that explicit citation mechanisms are a potent tool for factual accuracy in dialogue systems.

Vedant Pandya

Natural Language Processing Recommendation & Information Retrieval Training Efficiency & Optimization

1w ago

Spectrally-Guided Diffusion Noise Schedules

Ditch the handcrafted noise schedules: spectral analysis unlocks per-image diffusion schedules that boost generative quality, especially when you're racing against the clock with few steps.

Carlos Esteves, Carlos Esteves, A. Makadia +1

Computer Vision Training Efficiency & Optimization

Vincenzo De Martino +31w ago

Green Architectural Tactics in ML-enabled Systems: An LLM-based Repository Mining Study

LLMs can automatically discover novel, practical green AI tactics directly from code repositories, revealing hidden strategies for sustainable ML.

Vincenzo De Martino, Silverio Mart'inez-Fern'andez, Silverio Martínez-Fernández +1

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

1w ago·also Zhejiang Lab

Unsupervised Contrastive Learning for Efficient and Robust Spectral Shape Matching

Unsupervised contrastive learning can now outperform supervised methods for 3D shape matching, while simultaneously slashing computational costs.

Feifan Luo, Fei Luo, Hongyang Chen

Computer Vision Training Efficiency & Optimization

Yuegui Huang +51w ago

DyMoE: Dynamic Expert Orchestration with Mixed-Precision Quantization for Efficient MoE Inference on Edge

Edge devices can now run MoEs in real-time thanks to a dynamic quantization scheme that prioritizes important experts and critical layers.

Yuegui Huang, Zhiyuan Fang, Weiqi Luo +3

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

1w ago

Optimal Splitting of Language Models from Mixtures to Specialized Domains

Stop guessing how much to pretrain vs. specialize your language model – scaling laws can now tell you the optimal compute allocation for maximizing performance on downstream tasks.

Skyler Seto, Pierre Ablin, Anastasiia Filippova +5

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Lei Yang +31w ago

Fast and Effective Computation of Generalized Symmetric Matrix Factorization

Achieve fast and effective generalized symmetric matrix factorization by exploiting exact penalty and relaxation properties, enabling efficient solutions for a broad class of problems.

Lei Yang, Han Wan, Min Zhang +1

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Ruilin Li +51w ago

Enhancing Pretrained Model-based Continual Representation Learning via Guided Random Projection

Random projections in continual learning don't have to be random: carefully guiding them with target-aligned data beats the SOTA.

Ruilin Li, Heming Zou, Xiufeng Yan +3

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Ines Aitsahalia +21w ago

Hierarchical Latent Structure Learning through Online Inference

Discovering hierarchical structure in sequential data is now tractable, thanks to a new model that learns online without supervision.

Ines Aitsahalia, K. Iigaya, Kiyohito Iigaya

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Mohammad Al Ridhawi +31w ago

Adaptive Regime-Aware Stock Price Prediction Using Autoencoder-Gated Dual Node Transformers with Reinforcement Learning Control

Forget static models: this adaptive framework slashes stock price prediction error by dynamically routing data through specialized pathways based on real-time market regime detection.

Mohammad Al Ridhawi, M. Ali, Mahtab Haj Ali +1

Architecture Design (Transformers, SSMs, MoE)RLHF & Preference Learning Training Efficiency & Optimization

Gabriele Carrino +61w ago

Are complicated loss functions necessary for teaching LLMs to reason?

Stripping away the complexity of GRPO reveals that simple REINFORCE with group relative advantage can actually *improve* LLM reasoning, challenging the assumption that sophisticated loss functions are always better.

Gabriele Carrino, Andrea Sassella, Nicolò Brunello +4

Reasoning & Chain-of-Thought RLHF & Preference Learning Training Efficiency & Optimization

Ying Zheng +41w ago

ProCal: Probability Calibration for Neighborhood-Guided Source-Free Domain Adaptation

Over-reliance on neighborhood similarity in source-free domain adaptation hurts performance; ProCal offers a way to dynamically calibrate predictions and improve generalization.

Ying Zheng, Yingyue Zheng, Yiyi Zhang +2

Computer Vision Training Efficiency & Optimization

Xiangsheng Zhou +61w ago

UEPS: Robust and Efficient MRI Reconstruction

MRI reconstruction can be made dramatically more robust to clinical domain shifts by eliminating the need for explicit coil sensitivity map estimation.

Xiangsheng Zhou, Xiang Zhou, Hong Shang +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Xuan Liu +31w ago

Elastic Weight Consolidation Done Right for Continual Learning

EWC, a classic method for continual learning, has been underperforming because it suffers from gradient vanishing and protects the wrong parameters – but a simple "Logits Reversal" trick fixes both.

Xuan Liu, Xuan Liu, Xiaobin Chang +1

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Zheng Lin +81w ago

GAPSL: A Gradient-Aligned Parallel Split Learning on Heterogeneous Data

Gradient misalignment across devices in parallel split learning can be tamed with a novel gradient alignment strategy, leading to faster convergence and higher accuracy in heterogeneous federated learning.

Zheng Lin, Zheng Lin, Ons Aouedi +6

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Chonghan Liu +121w ago

VEPO: Variable Entropy Policy Optimization for Low-Resource Language Foundation Models

Low-resource language models can get a major boost in translation quality and tokenization efficiency by using reinforcement learning to directly enforce structural constraints like sequence length and linguistic well-formedness during training.

Chonghan Liu, Yiming Du, Yimin Du +10

Natural Language Processing RLHF & Preference Learning Training Efficiency & Optimization

Hanwen Wang +41w ago

Efficient and Versatile Quadrupedal Skating: Optimal Co-design via Reinforcement Learning and Bayesian Optimization

Quadrupedal robots can now skate circles around traditional designs, thanks to a co-design approach that unlocks dynamic maneuvers like hockey stops and self-alignment.

Hanwen Wang, Z. Fang, Zhenlong Fang +2

Robotics & Embodied AI Training Efficiency & Optimization

Yinan Xia +31w ago

Balancing the Reasoning Load: Difficulty-Differentiated Policy Optimization with Length Redistribution for Efficient and Robust Reinforcement Learning

LRMs can be made more efficient and accurate by strategically adjusting their output length based on task difficulty, leading to a better accuracy-length trade-off.

Yinan Xia, Haotian Zhang, Huimin Wang +1

Reasoning & Chain-of-Thought RLHF & Preference Learning Training Efficiency & Optimization

Sangwoo Shin +41w ago

Articulated-Body Dynamics Network: Dynamics-Grounded Prior for Robot Learning

Robots can learn faster and generalize better by encoding dynamics directly into their neural network architecture, outperforming standard transformers and GNNs.

Sangwoo Shin, Kunzhao Ren, Xiaobin Xiong +2

Architecture Design (Transformers, SSMs, MoE)Robotics & Embodied AI Training Efficiency & Optimization+1

Xue Yang +71w ago

End-to-End QGAN-Based Image Synthesis via Neural Noise Encoding and Intensity Calibration

End-to-end quantum image generation is now possible, even with limited qubits, thanks to a new method that bridges the gap between quantum circuits and pixel intensities.

Xue Yang, Rigui Zhou, Shizheng Jia +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Julián Martínez +21w ago

Computationally Efficient Density-Driven Optimal Control via Analytical KKT Reduction and Contractive MPC

Unlock real-time control for massive multi-agent swarms: this method slashes computation from cubic to linear with horizon length, making long-horizon density-driven control practical.

Julián Martínez, Julian Martinez, Kooktae Lee

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

Emmanuel Pilliat1w ago

High-Performance Portable GPU Primitives for Arbitrary Types and Operators in Julia

Julia can now hang with the big dogs: KernelForge.jl proves that portable, JIT-compiled GPU primitives can achieve vendor-level performance (matching or exceeding CUB and cuBLAS) without sacrificing generality.

Emmanuel Pilliat

Code Generation & Program Synthesis Distributed Systems & Hardware Training Efficiency & Optimization

Siqi Song +21w ago

ARTT: Augmented Reverberant-Target Training for Unsupervised Monaural Speech Dereverberation

Training a DNN to recover a reverberant signal from a *more* reverberant version surprisingly reduces reverberation in the original signal.

Siqi Song, Fulin Wu, Zhong-Qiu Wang

Data Curation & Synthetic Data Speech & Audio Training Efficiency & Optimization

1w ago

Rigorous Error Certification for Neural PDE Solvers: From Empirical Residuals to Solution Guarantees

PINNs can now come with guarantees: vanishing residual error provably ensures convergence to the true PDE solution, bridging the gap between empirical performance and theoretical certainty.

Amartya Mukherjee, Maxwell Fitzsimmons, David C. Del Rey Fern'andez +2

Scientific Discovery & Drug Design Training Efficiency & Optimization

Mohamed Badi +21w ago

Communication-Efficient and Robust Multi-Modal Federated Learning via Latent-Space Consensus

Multi-modal federated learning can be made communication-efficient and robust to outliers by learning a shared latent space, even with heterogeneous client architectures.

Mohamed Badi, Chaouki Ben Issaid, Mehdi Bennis

Distributed Systems & Hardware Multimodal Models Training Efficiency & Optimization

Anaísa Lucena +41w ago

Fast and Interpretable Autoregressive Estimation with Neural Network Backpropagation

Ditch slow, unstable AR estimation: neural nets offer a 12x speed boost and better convergence, without sacrificing interpretability.

Anaísa Lucena, Ana'isa Lucena, Ana Martins +2

Architecture Design (Transformers, SSMs, MoE)Interpretability & Mechanistic Interp Training Efficiency & Optimization

Sophia Tang1w ago

Foundations of Schr\"odinger Bridges for Generative Modeling

Schrödinger Bridges elegantly unify diffusion models, score-based models, and flow matching under a single, powerful framework.

Sophia Tang

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Yizhou Han +31w ago

DriftGuard: Mitigating Asynchronous Data Drift in Federated Learning

Federated learning can adapt to asynchronous data drift with up to 83% less retraining cost by using a Mixture-of-Experts architecture to selectively update local parameters.

Yizhou Han, Yi-seop Han, Di Wu +1

Data Curation & Synthetic Data Distributed Systems & Hardware Training Efficiency & Optimization

Rong Fu +121w ago·also Dalian Maritime University

SwiftGS: Episodic Priors for Immediate Satellite Surface Recovery

Ditch the slow per-scene optimization: SwiftGS meta-learns transferable priors for satellite surface reconstruction, enabling single-pass 3D recovery.

Rong Fu, J. Wu, Jiekai Wu +10

Computer Vision Training Efficiency & Optimization

1w ago

A Theoretical Comparison of No-U-Turn Sampler Variants: Necessary and Su?cient Convergence Conditions and Mixing Time Analysis under Gaussian Targets

Despite their similar theoretical guarantees, NUTS-BPS converges faster than NUTS-mul, offering a potential efficiency boost for high-dimensional Bayesian inference.

Samuel Gruffaz, S. Gruffaz, Kyurae Kim +4

Training Efficiency & Optimization

1w ago

SpecForge: A Flexible and Efficient Open-Source Training Framework for Speculative Decoding

Training speculative decoding models just got an order of magnitude faster, unlocking real-world deployment with a new open-source framework and a suite of production-ready draft models.

Shenggui Li, Chao Wang, Yikai Zhu +29

Inference & Quantization Open-Source Models & Weights Training Efficiency & Optimization

AI21w ago·also Stanford HAI

Data-efficient pre-training by scaling synthetic megadocs

Forget rephrasing: stitching synthetic text into "megadocs" unlocks surprisingly better pre-training, especially for long-context tasks, and keeps improving as you scale.

Konwoo Kim, K. Kim, Suhas Kotha +4

Data Curation & Synthetic Data Scaling Laws & Emergent Abilities Training Efficiency & Optimization

Elad Yoshai +51w ago

CAFlow: Adaptive-Depth Single-Step Flow Matching for Efficient Histopathology Super-Resolution

Dramatically speed up histopathology super-resolution by adaptively routing image tiles through a flow-matching network, achieving near-lossless quality at a fraction of the compute.

Elad Yoshai, Elad Yoshai, Ariel D. Yoshai +3

Computer Vision Inference & Quantization Training Efficiency & Optimization

Swarnendu Banik +31w ago

HAViT: Historical Attention Vision Transformer

Injecting "historical attention" into vision transformers boosts accuracy by over 1% with minimal architectural changes, suggesting that current ViTs underutilize information learned in earlier layers.

Swarnendu Banik, Manish Das, S. Dubey +1

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Alexander Meinert +51w ago

Safety-Guaranteed Imitation Learning from Nonlinear Model Predictive Control for Spacecraft Close Proximity Operations

Guaranteeing safety in spacecraft autonomy is now more tractable: a CBF-CLF informed imitation learning approach achieves NMPC-level performance with real-time feasibility on commodity hardware.

Alexander Meinert, N. Baldauf, Niklas Baldauf +3

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

Tsinghua AI1w ago

6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion Models

Video diffusion models can be aggressively quantized down to 6-bit precision with minimal quality loss by dynamically adapting the bit-width of each layer based on its temporal stability.

Rundong Su, Jintao Zhang, Zhihang Yuan +3

Computer Vision Inference & Quantization Training Efficiency & Optimization

Yifan Zhang +21w ago

RE-SAC: Disentangling aleatoric and epistemic risks in bus fleet control: A stable and robust ensemble DRL approach

Standard DRL collapses in volatile environments because it mistakes irreducible noise for a lack of data, but RE-SAC fixes this by explicitly separating these uncertainties.

Yifan Zhang, Yifan Zhang, Liang Zheng

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

Mar 18, 2026

Lars Bartels +42w ago

Real-Time Online Learning for Model Predictive Control using a Spatio-Temporal Gaussian Process Approximation

Achieve real-time online learning for model predictive control with a novel spatio-temporal Gaussian Process approximation that maintains constant computational complexity.

Lars Bartels, Amon Lahr, Andrea Carron +2

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

2w ago

AdaMuS: Adaptive Multi-view Sparsity Learning for Dimensionally Unbalanced Data

AdaMuS overcomes the bias towards high-dimensional data in multi-view learning by adaptively pruning redundant parameters and sparsely fusing views, leading to improved performance on dimensionally unbalanced data.

Cai Xu, Changhao Sun, Ziyu Guan

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Training Efficiency & Optimization

2w ago

KA2L: A Knowledge-Aware Active Learning Framework for LLMs

LLMs can be actively trained to master specific knowledge domains with 50% less data and computation by focusing on what they *don't* know, not what they already do.

Haoxuan Yin, Bojian Liu, Chen Tang +3

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

2w ago

Exploring parameter-efficient fine-tuning (PEFT) of billion-parameter vision models with QLoRA and DoRA: insights into generalization for limited-data image classification under a 98:1 test-to-train regime

Even with a 98:1 test-to-train ratio, PEFT methods like QLoRA can unlock surprisingly strong generalization from billion-parameter vision models for agricultural image classification, suggesting underfitting is the bigger risk than overfitting.

Haiyu Yang, Sumit Sharma, Enhong Liu +1

Computer Vision Multimodal Models Training Efficiency & Optimization

Charuka Herath +32w ago

QuantFL: Sustainable Federated Learning for Edge IoT via Pre-Trained Model Quantisation

Pre-trained models unlock surprisingly aggressive quantization in federated learning, slashing communication costs by 40% without sacrificing accuracy on MNIST and CIFAR-100.

Charuka Herath, Yogachandran Rahulamathavan, Varuna De Silva +1

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

2w ago·also Tsinghua AI, PKU, UCLA

Beyond Outliers: A Data-Free Layer-wise Mixed-Precision Quantization Approach Driven by Numerical and Structural Dual-Sensitivity

Achieve better compression in low-bit quantization by considering not just numerical sensitivity, but also the structural role of each layer.

Hengyuan Zhang, Xinrong Chen, Zunhai Su +10

Inference & Quantization Training Efficiency & Optimization

Qubit Pharmaceuticals2w ago·also Qubit Pharmaceuticals Inc, Sorbonne

The Convergence Frontier: Integrating Machine Learning and High Performance Quantum Computing for Next-Generation Drug Discovery

Quantum computers could finally unlock the full potential of machine learning for drug discovery by directly generating the quantum chemistry data that classical computers struggle to produce.

Narjes Ansari, C'esar Feniou, César Feniou +17

Distributed Systems & Hardware Scientific Discovery & Drug Design Training Efficiency & Optimization

2w ago·also UTS

Learning Evolving Preferences: A Federated Continual Framework for User-Centric Recommendation

Federated recommendation systems can now better adapt to evolving user preferences without sacrificing privacy, thanks to a novel approach that retains historical knowledge and transfers insights between similar users.

Chunxu Zhang, Zhi Xue, Guodong Long +2

Distributed Systems & Hardware Recommendation & Information Retrieval Training Efficiency & Optimization

Chengwei Wei +42w ago

InfoDensity: Rewarding Information-Dense Traces for Efficient Reasoning

LLMs can achieve state-of-the-art reasoning accuracy with significantly fewer tokens by rewarding intermediate reasoning steps that maximize information gain and maintain monotonic progress.

Chengwei Wei, Jung-jae Kim, Longyin Zhang +2

Reasoning & Chain-of-Thought RLHF & Preference Learning Training Efficiency & Optimization

Raghavv Goel +42w ago

Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing

LLMs can predict multiple tokens in parallel without any training, simply by cleverly probing their embedding space with dynamically generated mask tokens.

Raghavv Goel, Mukul Gagrani, Mingu Lee +2

Inference & Quantization Natural Language Processing Training Efficiency & Optimization

AI22w ago

Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

Pruning vision tokens across both the ViT and LLM can yield a 62% efficiency boost in video VLMs with minimal performance loss, and without complex text conditioning.

Jianrui Zhang, Winson Han, Ranjay Krishna +3

Inference & Quantization Multimodal Models Training Efficiency & Optimization

Romil Imtiaz +12w ago

ResNet-50 with Class Reweighting and Anatomy-Guided Temporal Decoding for Gastrointestinal Video Analysis

Class reweighting and anatomy-guided decoding can substantially improve the performance of video analysis pipelines for rare events in imbalanced gastrointestinal datasets.

Romil Imtiaz, Dimitris K. Iakovidis

Computer Vision Training Efficiency & Optimization

Yuxiang Mei +42w ago

Zipper-LoRA: Dynamic Parameter Decoupling for Speech-LLM based Multilingual Speech Recognition

Stop struggling with the stability-plasticity dilemma in multilingual Speech-LLMs: Zipper-LoRA dynamically disentangles LoRA updates to boost low-resource ASR without sacrificing cross-lingual transfer.

Yuxiang Mei, Delai Qiu, Shengping Liu +2

Multimodal Models Speech & Audio Training Efficiency & Optimization

Yihong Chen2w ago

Attention Sinks Induce Gradient Sinks

Attention sinks aren't just a forward-pass phenomenon; they actively warp the training landscape by creating "gradient sinks" that drive massive activations.

Yihong Chen

Architecture Design (Transformers, SSMs, MoE)Interpretability & Mechanistic Interp Training Efficiency & Optimization

Ahmet Kaplan2w ago

Auto-Unrolled Proximal Gradient Descent: An AutoML Approach to Interpretable Waveform Optimization

Achieve near-optimal waveform optimization with 98.8% spectral efficiency using a 5-layer, AutoML-tuned unrolled proximal gradient descent network trained on just 100 samples.

Ahmet Kaplan

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

2w ago

Joint Degradation-Aware Arbitrary-Scale Super-Resolution for Variable-Rate Extreme Image Compression

Forget training separate models for each compression level; this framework achieves state-of-the-art extreme image compression with flexible bitrate control using a single diffusion-based arbitrary-scale super-resolution model.

Xinning Chai, Zhengxue Cheng, Rong Xie +1

Computer Vision Inference & Quantization Training Efficiency & Optimization

2w ago·also School of Life Science and Technology, Shenzhen University of Advanced Technology, Tencent AI

SCALE:Scalable Conditional Atlas-Level Endpoint transport for virtual cell perturbation prediction

Virtual cell perturbation prediction gets a 12x speedup in pretraining and a 12% boost in biological fidelity with SCALE, a new foundation model that prioritizes scalable infrastructure and biologically faithful evaluation.

Shuizhou Chen, Lang Yu, Kedu Jin +8

Scientific Discovery & Drug Design Training Efficiency & Optimization

2w ago·also Shenzhen University

TRiMS: Real-Time Tracking of Minimal Sufficient Length for Efficient Reasoning via RL

LLMs can slash over 80% of their chain-of-thought tokens with a minor accuracy boost, thanks to a new RL-based method that targets the "Minimal Sufficient Length" of reasoning.

Tingcheng Bian, Jinchang Luo, Mingquan Cheng +5

Reasoning & Chain-of-Thought Training Efficiency & Optimization

Jiashun Liu +12w ago

Complementary Reinforcement Learning

RL agents can learn far more efficiently by dynamically distilling and leveraging past experiences that co-evolve with the agent's growing capabilities.

Jiashun Liu, Bo Zheng

RLHF & Preference Learning Tool Use & Agents Training Efficiency & Optimization

Zhengze Xiao +42w ago·also H6 and C

A Survey of Neural Network Variational Monte Carlo from a Computing Workload Characterization Perspective

NNVMC's promise for solving quantum many-body problems is currently bottlenecked by surprisingly mundane issues: low-intensity elementwise operations and data movement on GPUs.

Zhengze Xiao, Xuanzhe Ding, Yuyang Lou +2

Distributed Systems & Hardware Scientific Discovery & Drug Design Training Efficiency & Optimization

Yan Liang +42w ago

Trust the Unreliability: Inward Backward Dynamic Unreliability Driven Coreset Selection for Medical Image Classification

Counterintuitively, the most *unreliable* samples in medical imaging datasets—those with fluctuating confidence and frequent forgetting during training—are the *most* informative for building accurate decision boundaries.

Yan Liang, Ziyuan Yang, Zhuxin Lei +2

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

Tommaso Giovannelli +22w ago

Stochastic set-valued optimization and its application to robust learning

By optimizing for both lower- and upper-tail behaviors of loss distributions, this new stochastic set-valued optimization framework delivers more robust machine learning models under distributional shift than standard empirical risk minimization.

Tommaso Giovannelli, Jingfu Tan, Luis Nunes Vicente

Red-Teaming & Adversarial Robustness Training Efficiency & Optimization

2w ago

ChopGrad: Pixel-Wise Losses for Latent Video Diffusion via Truncated Backpropagation

Training video diffusion models with pixel-wise losses just got a whole lot cheaper: ChopGrad reduces memory complexity from linear to constant with video length.

Dmitriy Rivkin, Parker Ewen, Lili Gao +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Arpit Singh Gautam +12w ago

RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

Forget painstakingly tuning quantization for each LLM – RAMP learns a quantization policy that generalizes across architectures, often outperforming target-specific training.

Arpit Singh Gautam, Saurabh Jha

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

Wenhan Cao +22w ago

One-Step Sampler for Boltzmann Distributions via Drifting

Drifting offers a surprisingly effective way to distill iterative Boltzmann sampling into a single forward pass, even with unknown normalization constants.

Wenhan Cao, Keyu Yan, Lin Zhao

Scientific Discovery & Drug Design Training Efficiency & Optimization

University of Pavia2w ago·also Euler Institute

Translation Invariance of Neural Operators for the FitzHugh-Nagumo Model

Convolutional Neural Operators (CNOs) surprisingly excel at capturing translated dynamics in the FitzHugh-Nagumo model, despite other architectures achieving lower training error or faster inference.

Luca Pellegrini

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

University of Alabama at Birmingham2w ago

Binary Latent Protein Fitness Landscapes for Quantum Annealing Optimization

Quantum annealing could soon accelerate protein engineering: Q-BIOLAT formulates protein fitness as a QUBO problem, directly compatible with emerging quantum annealing hardware.

Truong-Son Hy, T. Hy

Scientific Discovery & Drug Design Training Efficiency & Optimization

Leonardo Del Grande +22w ago

A Dual Certificate Approach to Sparsity in Infinite-Width Shallow Neural Networks

Infinite neural nets can be sparse, and this paper proves it, showing that total variation regularization provably yields sparse solutions in infinite-width shallow ReLU networks, with sparsity bounds tied to the geometry of the data.

Leonardo Del Grande, Christoph Brune, Marcello Carioni

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Ivor J. A. Simpson +12w ago

Structured SIR: Efficient and Expressive Importance-Weighted Inference for High-Dimensional Image Registration

Ditch the overconfident posteriors: Structured SIR offers a memory-efficient way to capture complex, multi-modal uncertainty in high-dimensional image registration, outperforming variational inference.

Ivor J. A. Simpson, Neill D. F. Campbell

Computer Vision Training Efficiency & Optimization

Caren Hasler2w ago

Consistency of the $k$-Nearest Neighbor Regressor under Complex Survey Designs

k-NN regression, a classic non-parametric method, can now be rigorously applied to complex survey data, expanding its applicability to a wider range of real-world statistical problems.

Caren Hasler

Training Efficiency & Optimization

Search

Training Efficiency & Optimization - Weekly Roundup

Selected Labs publishing this week

Top Papers

All Papers (100)