March 25 – April 1, 2026

Training Efficiency & Optimization - Weekly Roundup

100 papers published across 3 labs.

21% acceleration

Selected Labs publishing this week

Tsinghua AI1 MIT CSAIL1 DAMO1

Top Papers

Mar 30, 2026

Jeonghwan Kim +52d ago

Flip Stunts on Bicycle Robots using Iterative Motion Imitation

Bicycle robots can now do front-flips, thanks to a reinforcement learning method that bootstraps from dynamically infeasible reference motions.

Jeonghwan Kim, Shamel Fahmi, Seungeun Rho +3

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

Mar 31, 2026

Timon Klein +41d ago

Tucker Attention: A generalization of approximate attention mechanisms

Tucker Attention squeezes an order of magnitude more parameter efficiency out of attention layers, while unifying and simplifying Group Query Attention, Multi-Head Latent Attention, and standard Multi-Head Attention.

Timon Klein, Jonas Kusch, Sebastian Sager +2

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Izavan dos S. Correia +21d ago

Automatic Identification of Parallelizable Loops Using Transformer-Based Source Code Representations

Forget hand-crafted features: DistilBERT can automatically identify parallelizable loops in code with >99% accuracy, opening the door to more efficient automatic parallelization.

Izavan dos S. Correia, Henrique C. T. Santos, Tiago A. E. Ferreira

Architecture Design (Transformers, SSMs, MoE)Code Generation & Program Synthesis Training Efficiency & Optimization

Max Hennick +11d ago

From Density Matrices to Phase Transitions in Deep Learning: Spectral Early Warnings and Interpretability

Quantum chemistry's density matrix approach reveals interpretable early warning signals of phase transitions in deep learning, from grokking to emergent misalignment.

Max Hennick, Guillaume Corlouer

Interpretability & Mechanistic Interp Scaling Laws & Emergent Abilities Training Efficiency & Optimization

Quanhao Li +11d ago

Tracking vs. Deciding: The Dual-Capability Bottleneck in Searchless Chess Transformers

Chess transformers trained solely on move sequences face a "dual-capability bottleneck" where excelling at both state tracking and decision-making requires carefully balancing data diversity and quality, a tension that simple scaling cannot resolve.

Quanhao Li, Wei Jiang

Architecture Design (Transformers, SSMs, MoE)Data Curation & Synthetic Data Training Efficiency & Optimization

All Papers (100)

Mar 31, 2026

Timon Klein +41d ago

Tucker Attention: A generalization of approximate attention mechanisms

Timon Klein, Jonas Kusch, Sebastian Sager +2

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Izavan dos S. Correia +21d ago

Automatic Identification of Parallelizable Loops Using Transformer-Based Source Code Representations

Forget hand-crafted features: DistilBERT can automatically identify parallelizable loops in code with >99% accuracy, opening the door to more efficient automatic parallelization.

Izavan dos S. Correia, Henrique C. T. Santos, Tiago A. E. Ferreira

Architecture Design (Transformers, SSMs, MoE)Code Generation & Program Synthesis Training Efficiency & Optimization

Max Hennick +11d ago

From Density Matrices to Phase Transitions in Deep Learning: Spectral Early Warnings and Interpretability

Quantum chemistry's density matrix approach reveals interpretable early warning signals of phase transitions in deep learning, from grokking to emergent misalignment.

Max Hennick, Guillaume Corlouer

Interpretability & Mechanistic Interp Scaling Laws & Emergent Abilities Training Efficiency & Optimization

Quanhao Li +11d ago

Tracking vs. Deciding: The Dual-Capability Bottleneck in Searchless Chess Transformers

Quanhao Li, Wei Jiang

Architecture Design (Transformers, SSMs, MoE)Data Curation & Synthetic Data Training Efficiency & Optimization

Dustin Eisenhardt +21d ago

Mind the Gap: A Framework for Assessing Pitfalls in Multimodal Active Learning

Multimodal AI models learn to be lazy, often ignoring entire modalities, and current active learning methods don't fix the problem.

Dustin Eisenhardt, Yunhee Jeong, Florian Buettner

Eval Frameworks & Benchmarks Multimodal Models Training Efficiency & Optimization

Zhijie Tang +21d ago

Reducing Complexity for Quantum Approaches in Train Load Optimization

Radically simpler train loading plans are now possible by implicitly modeling rehandle costs, slashing the complexity of optimization problems.

Zhijie Tang, Albert Nieto-Morales, Arit Kumar Bishwas

Inference & Quantization Training Efficiency & Optimization

Xiao Liu +31d ago

Mean Masked Autoencoder with Flow-Mixing for Encrypted Traffic Classification

By mixing flows and using a teacher-student approach, MMAE learns to classify encrypted traffic more accurately than previous masked autoencoders.

Xiao Liu, Xiaowei Fu, Fuxiang Huang +1

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Qing He +21d ago

TrafficMoE: Heterogeneity-aware Mixture of Experts for Encrypted Traffic Classification

By disentangling headers and payloads with a Mixture-of-Experts architecture, TrafficMoE achieves state-of-the-art encrypted traffic classification, proving that heterogeneity-aware modeling is crucial for extracting discriminative features from noisy, encrypted data.

Qing He, Xiaowei Fu, Lei Zhang

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Leonard S. Pleiss +21d ago

Target-Aligned Reinforcement Learning

Target networks don't have to be a necessary evil: aligning online and target network estimates can actually *accelerate* RL convergence.

Leonard S. Pleiss, James Harrison, Maximilian Schiffer

Training Efficiency & Optimization

1d ago·also KU, Pioneer Centre for Artificial

An Isotropic Approach to Efficient Uncertainty Quantification with Gradient Norms

Forget ensembles and retraining: estimate LLM uncertainty with just a single forward-backward pass by assuming parameter covariance isotropy.

Nils Grunefeld, J. Frellsen, Christian Hardmeier

Inference & Quantization Training Efficiency & Optimization

C. Goetze +21d ago

Deep Learning-Based Anomaly Detection in Spacecraft Telemetry on Edge Devices

You can shrink a spacecraft anomaly detection model by 97% and still catch almost all the problems.

C. Goetze, Tim Schlippe, Daniel Lakey

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Daniel Williams1d ago

Real-Time Band-Grouped Vocal Denoising Using Sigmoid-Driven Ideal Ratio Masking

Real-time vocal denoising is now possible with deep learning, achieving significant SNR improvements at under 10ms latency.

Daniel Williams

Architecture Design (Transformers, SSMs, MoE)Speech & Audio Training Efficiency & Optimization

Junjie Zhang +31d ago

Grokking From Abstraction to Intelligence

Grokking isn't just about local circuits or optimization tricks, but a global structural collapse of redundant model manifolds, revealing a deep connection between compression and generalization.

Junjie Zhang, Zhen Shen, Gang Xiong +1

Architecture Design (Transformers, SSMs, MoE)Interpretability & Mechanistic Interp Training Efficiency & Optimization

Gensyn1d ago

Training-Free Dynamic Upcycling of Expert Language Models

Forget expensive finetuning: DUME dynamically combines existing expert LLMs into a powerful MoE *without* additional training, unlocking multi-domain performance at minimal cost.

Eros Fanì, Oğuzhan Ersoy

Natural Language Processing Open-Source Models & Weights Training Efficiency & Optimization

Christine Zhang +21d ago

Concept Training for Human-Aligned Language Models

LLMs can better capture human semantic similarity by predicting sets of related concepts instead of single next tokens.

Christine Zhang, Daniel Jurafsky, C. Shani

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Yuhua Xu +71d ago

Client-Verifiable and Efficient Federated Unlearning in Low-Altitude Wireless Networks

Now, clients can actually *verify* that their data has been removed from a federated learning model, even when the server is untrusted.

Yuhua Xu, Mingtao Jiang, Chenfei Hu +5

Distributed Systems & Hardware Training Efficiency & Optimization

M.J.S. Farmer +61d ago

Software Vulnerability Detection Using a Lightweight Graph Neural Network

LLMs aren't the only path to vulnerability detection: a GNN-based model achieves near-parity with 100x less overhead.

M.J.S. Farmer, Ekincan Ufuktepe, Anne Watson +4

Architecture Design (Transformers, SSMs, MoE)Code Generation & Program Synthesis Training Efficiency & Optimization

Jijun Lu +71d ago

Compressive sensing inspired self-supervised single-pixel imaging

Single-pixel imaging gets a deep learning boost: SISTA-Net leverages learned sparsity and hybrid CNN-VSSM architectures to achieve state-of-the-art reconstruction quality, even in noisy underwater environments.

Jijun Lu, Yifan Chen, Libang Chen +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Ruochen Gao +21d ago

Clinical DVH metrics as a loss function for 3D dose prediction in head and neck radiotherapy

By directly optimizing clinical dose-volume histogram (DVH) metrics, this method produces 3D dose predictions that more closely align with clinical treatment planning criteria than traditional voxel-wise approaches.

Ruochen Gao, Marius Staring, Frank Dankers

Scientific Discovery & Drug Design Training Efficiency & Optimization

Dimitrios Anastasiou +81d ago

CoRe-DA: Contrastive Regression for Unsupervised Domain Adaptation in Surgical Skill Assessment

Forget expensive labels: CoRe-DA leverages contrastive learning and self-training to achieve state-of-the-art surgical skill assessment across diverse surgical environments without requiring target domain annotations.

Dimitrios Anastasiou, Razvan Caramalau, Jialang Xu +6

Computer Vision Robotics & Embodied AI Training Efficiency & Optimization

Rongkang Dong +41d ago

Emotion Diffusion Classifier with Adaptive Margin Discrepancy Training for Facial Expression Recognition

Diffusion models can beat discriminative classifiers at facial expression recognition, but only with a dynamically adjusted margin loss that accounts for per-sample difficulty.

Rongkang Dong, Cuixin Yang, Cong Zhang +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Ni Gao +31d ago

FedDBP: Enhancing Federated Prototype Learning with Dual-Branch Features and Personalized Global Fusion

Stop averaging prototypes blindly: FedDBP uses Fisher information to intelligently fuse local prototypes, significantly boosting performance in heterogeneous federated learning.

Ni Gao, Siquan Huang, Leyu Shi +1

Data Curation & Synthetic Data Distributed Systems & Hardware Training Efficiency & Optimization

Yi Zhang +21d ago

Passive iFIR filters for data-driven velocity control in robotics

Passive iFIR filters learned from just three minutes of robot data can dramatically outperform optimized PID controllers in velocity tracking tasks, offering a fast and stable alternative for robot control.

Yi Zhang, Zixing Wang, Fulvio Forni

Robotics & Embodied AI Training Efficiency & Optimization

Teruki Kato +21d ago

Model Predictive Path Integral PID Control for Learning-Based Path Following

By optimizing PID gains with MPPI, this method achieves comparable performance to conventional MPPI with significantly fewer samples, offering a more sample-efficient approach to learning-based control.

Teruki Kato, Koshi Oishi, Seigo Ito

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

Yinxiao Tian +31d ago

Kilohertz-Safe: A Scalable Framework for Constrained Dexterous Retargeting

Get kilohertz-level dexterous hand teleoperation *with* formal safety guarantees, thanks to a new convex optimization approach.

Yinxiao Tian, Ziyi Yang, Zinan Zhao +1

Robotics & Embodied AI Training Efficiency & Optimization

1d ago

Efficient Parallel Compilation and Profiling of Quantum Circuits at Large Scales

Quantum circuit compilation, a major bottleneck, can be sped up by over 15x with minimal overhead using a new parallelization technique validated on 8000 large-scale, configurable random circuits.

Jane Moore, Michael Hart, John McAllister

Code Generation & Program Synthesis Distributed Systems & Hardware Training Efficiency & Optimization

Abrarul Karim +21d ago

Exploration of Energy and Throughput Tradeoffs for Dataflow Networks

Dataflow networks can achieve significant energy savings without sacrificing throughput by strategically powering down actors during idle periods, a balance efficiently discovered using a novel "Hop and Skip" exploration strategy.

Abrarul Karim, J. Falk, J. Teich

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Yusheng Zheng +101d ago

SysOM-AI: Continuous Cross-Layer Performance Diagnosis for Production AI Training

Pinpointing performance bottlenecks in large-scale AI training just got 100x faster, thanks to a new system that watches the whole stack without slowing things down.

Yusheng Zheng, Wenan Mao, Shuyi Cheng +8

Distributed Systems & Hardware Training Efficiency & Optimization

Enlai Li +31d ago

AP-DRL: A Synergistic Algorithm-Hardware Framework for Automatic Task Partitioning of Deep Reinforcement Learning on Versal ACAP

Achieve up to 4.17x speedup in DRL training by intelligently partitioning tasks across CPUs, FPGAs, and AI Engines on AMD Versal ACAP, demonstrating the power of hardware-aware algorithm design.

Enlai Li, Zhe Lin, Sharad Sinha +1

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

M. Gharib +21d ago

From Physics to Surrogate Intelligence: A Unified Electro-Thermo-Optimization Framework for TSV Networks

Unlock 600,000x faster TSV design by replacing computationally expensive full-wave simulations with physics-informed graph neural networks.

M. Gharib, Leonid Popryho, Inna Partin-Vaisband

Distributed Systems & Hardware Scientific Discovery & Drug Design Training Efficiency & Optimization

Department of Physics1d ago·also Department of Physics and INFN

Sampling at intermediate temperatures is optimal for training large language models in protein structure prediction

Forget the cold start: training transformers for protein structure prediction peaks at intermediate temperatures, revealing a sweet spot in the loss landscape.

L. Ghiringhelli, A. Zambon, G. Tiana

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

Zehao Zhou +71d ago

GPU Accelerated Minimal Auxiliary Basis Approach TDDFT for Large Organic Molecules

Calculating excited states of molecules with thousands of atoms, previously a computational bottleneck, is now practical on a single GPU thanks to a new implementation of TDDFT-risp.

Zehao Zhou, Xiaojie Wu, Yanheng Li +5

Distributed Systems & Hardware Scientific Discovery & Drug Design Training Efficiency & Optimization

Mar 30, 2026

Yufei Xu +142d ago

HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention

Scanning every token to focus attention is now passé: HISA prunes irrelevant context blocks *before* token-level scoring, slashing compute without sacrificing selection fidelity.

Yufei Xu, Fanxu Meng, Fan Jiang +12

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Aur Shalev Merin2d ago

Temporal Credit Is Free

Forget backpropagation through time: recurrent networks already have temporal credit baked into their forward pass.

Aur Shalev Merin

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Tsinghua AI2d ago

Rethinking Language Model Scaling under Transferable Hypersphere Optimization

Forget painstaking hyperparameter tuning: this hypersphere parameterization lets you transfer a single learning rate across model sizes, depths, and even MoE architectures, slashing compute costs by 1.58x.

Liliang Ren, Yelong Shen, Weizhu Chen

Architecture Design (Transformers, SSMs, MoE)Scaling Laws & Emergent Abilities Training Efficiency & Optimization

Meitong Liu +42d ago

Expectation Error Bounds for Transfer Learning in Linear Regression and Linear Neural Networks

Forget heuristics – this work gives provable conditions for *when* and *how* auxiliary data actually improve generalization in transfer learning.

Meitong Liu, Christopher Jung, Rui Li +2

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Yash Savani +62d ago

Stepwise Credit Assignment for GRPO on Flow-Matching Models

Correcting errors early in the diffusion process matters more than fixing them later: Stepwise-Flow-GRPO leverages this insight to dramatically improve RL-based flow model training.

Yash Savani, Branislav Kveton, Yuchen Liu +4

Computer Vision RLHF & Preference Learning Training Efficiency & Optimization

Aurelien Bibaut +32d ago

Functional Natural Policy Gradients

Unlock $\sqrt{N}$ regret in offline policy learning, even with complex policy classes, by trading off policy and environment complexity.

Aurelien Bibaut, Houssam Zenati, Thibaud Rahier +1

RLHF & Preference Learning Training Efficiency & Optimization

Damian Sójka +22d ago

Subspace Optimization for Backpropagation-Free Continual Test-Time Adaptation

Backpropagation-free test-time adaptation can be both accurate and efficient: PACE achieves state-of-the-art accuracy while slashing runtime by over 50%.

Damian Sójka, Sebastian Cygert, Marc Masana

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Shivnath Tathe2d ago

LACE: Loss-Adaptive Capacity Expansion for Continual Learning

Models can dynamically grow their own capacity during continual learning, adding parameters only when and where they're needed, without human intervention.

Shivnath Tathe

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Max Qiushi Lin +52d ago

Optimistic Actor-Critic with Parametric Policies for Linear Markov Decision Processes

Actor-critic methods can achieve state-of-the-art sample complexity in linear MDPs *without* relying on computationally expensive implicit policies or strong assumptions about exploration.

Max Qiushi Lin, Reza Asad, Kevin Tan +3

Robotics & Embodied AI Training Efficiency & Optimization

Christian Kuehn +22d ago

Universal Approximation Constraints of Narrow ResNets: The Tunnel Effect

Narrow ResNets can struggle to represent critical points in input-output mappings, effectively pushing them to infinity and hindering accurate function approximation.

Christian Kuehn, Sara-Viola Kuntz, Tobias Wöhrer

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Chien-Ping Lu2d ago

The Unreasonable Effectiveness of Scaling Laws in AI

Scaling laws work so well because they capture the essence of computation, not the specifics of implementation, leading to a persistent efficiency arms race.

Chien-Ping Lu

Scaling Laws & Emergent Abilities Training Efficiency & Optimization

Yi-Shuai Niu +22d ago

Yau's Affine Normal Descent: Algorithmic Framework and Convergence Analysis

Escape the tyranny of ill-conditioned optimization landscapes: Yau's Affine Normal Descent offers provably robust convergence by intrinsically adapting to anisotropic curvature through volume-preserving affine invariance.

Yi-Shuai Niu, Artan Sheshmani, Shing-Tung Yau

Training Efficiency & Optimization

University of Florence2d ago

Spectral Higher-Order Neural Networks

Higher-order neural networks don't need hypergraphs: SHONNs unlock their power for general-purpose feedforward architectures by sidestepping stability and scaling issues.

Gianluca Peri, Timoteo Carletti, Duccio Fanelli +1

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Wan Tian +42d ago

Machine Learning-Assisted High-Dimensional Matrix Estimation

Neural networks can turbocharge classical optimization for high-dimensional matrix estimation, achieving faster convergence without sacrificing theoretical guarantees.

Wan Tian, Hui Yang, Zhouhui Lian +2

Scientific Discovery & Drug Design Training Efficiency & Optimization

2d ago·also College of Geosciences, SINTEF

Physics-Informed Neural Networks for Predicting Hydrogen Sorption in Geological Formations: Thermodynamically Constrained Deep Learning Integrating Classical Adsorption Theory

Classical models of hydrogen storage in geological formations fall apart when applied to diverse samples, but this physics-informed neural network nails it, achieving R2 = 0.9544.

Mohammad Nooraiepour, Mohammad Masoudi, Zezhang Song +1

Scientific Discovery & Drug Design Training Efficiency & Optimization

Yuanqiao Zhang +62d ago

Taming the Instability: A Robust Second-Order Optimizer for Federated Learning over Non-IID Data

Second-order federated learning can be made robust and practical: FedRCO overcomes instability issues and outperforms first-order methods in non-IID settings.

Yuanqiao Zhang, Tiantian He, Yixin Wang +4

Distributed Systems & Hardware Training Efficiency & Optimization

Gnankan Landry Regis N'guessan2d ago

FI-KAN: Fractal Interpolation Kolmogorov-Arnold Networks

Forget smooth sailing: FI-KAN's fractal bases let neural networks conquer non-smooth functions and PDEs with up to 79x better accuracy.

Gnankan Landry Regis N'guessan

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Corresponding Author2d ago

ERPO: Token-Level Entropy-Regulated Policy Optimization for Large Reasoning Models

LLMs can reason more accurately and concisely when RL is guided by token-level entropy, pinpointing and exploring "forks in the road" during the reasoning process.

Song Yu, Li Li

Reasoning & Chain-of-Thought RLHF & Preference Learning Training Efficiency & Optimization

Da Chang +72d ago

MuonEq: Balancing Before Orthogonalization with Lightweight Equilibration

Row/column normalization *before* orthogonalization can significantly boost convergence and reduce validation perplexity in LLaMA2 pretraining, outperforming the base Muon optimizer.

Da Chang, Qiankun Shi, Lvgang Zhang +5

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Yves Ruffenach2d ago

Variational Neurons in Transformers for Language Modeling

Transformers can now predict with an explicit internal structure of uncertainty, enabling stronger probabilistic evaluation and a more informative analysis of model behavior.

Yves Ruffenach

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Muhammed Öz +52d ago

Differentiable Power-Flow Optimization

Differentiable Power-Flow unlocks scalable, gradient-based optimization for power grid management, outperforming traditional methods and enabling new applications like real-time contingency analysis.

Muhammed Öz, Jasmin Hörter, Kaleb Phipps +3

Distributed Systems & Hardware Scientific Discovery & Drug Design Training Efficiency & Optimization

Andrew Jacobsen +32d ago

A Perturbation Approach to Unconstrained Linear Bandits

Unconstrained bandit linear optimization can be surprisingly reduced to standard online linear optimization using a perturbation approach, unlocking new regret guarantees and high-probability bounds.

Andrew Jacobsen, Dorian Baudry, Shinji Ito +1

Natural Language Processing Recommendation & Information Retrieval Training Efficiency & Optimization

Shoujin Wang +82d ago

Neural Federated Learning for Livestock Growth Prediction

Federated learning can overcome data sparsity and privacy concerns to improve livestock growth prediction using real-world farm data.

Shoujin Wang, Mingze Ni, Wei Liu +6

Data Curation & Synthetic Data Distributed Systems & Hardware Training Efficiency & Optimization

Simon Kuang +32d ago

Lipschitz verification of neural networks through training

Forget expensive verification: training networks to be *trivially* verifiable yields state-of-the-art Lipschitz bounds and adversarial robustness.

Simon Kuang, Yuezhu Xu, S. Sivaranjani +1

Red-Teaming & Adversarial Robustness Training Efficiency & Optimization

Zili Zhang +72d ago·also Pitt

Heddle: A Distributed Orchestration System for Agentic RL Rollout

Agentic RL rollouts are bottlenecked by long-tail trajectory generation, but Heddle's trajectory-centric approach achieves 2.5x higher throughput.

Zili Zhang, Yinmin Zhong, Chengxu Yang +5

Distributed Systems & Hardware Tool Use & Agents Training Efficiency & Optimization

He Yang +62d ago

InkDrop: Invisible Backdoor Attacks Against Dataset Condensation

Dataset condensation, already vulnerable to backdoor attacks, now faces a far stealthier threat: InkDrop leverages decision boundary uncertainty to hide malicious triggers, making detection significantly harder.

He Yang, Dongyi Lv, Song Ma +4

Data Curation & Synthetic Data Red-Teaming & Adversarial Robustness Training Efficiency & Optimization

Dominic Schneider +22d ago

Transformer-Based Prognostics: Enhancing Network Availability by Improved Monitoring of Optical Fiber Amplifiers

A lightweight transformer can forecast optical amplifier failures in real-time, paving the way for self-healing networks.

Dominic Schneider, Lutz Rapp, Christoph Ament

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Yakov Pyotr Shkolnikov2d ago

Bit-Identical Medical Deep Learning via Structured Orthogonal Initialization

Random weight initialization is a major source of instability in deep learning, especially for rare classes, but this work shows how to eliminate it entirely with structured orthogonal initialization.

Yakov Pyotr Shkolnikov

Open-Source Models & Weights Scientific Discovery & Drug Design Training Efficiency & Optimization

Arundhathi Dev +12d ago

Efficient Domain Adaptation for Text Line Recognition via Decoupled Language Models

Achieve near state-of-the-art OCR accuracy with 95% less compute by decoupling character detection from language correction and training the language model on synthetic noise alone.

Arundhathi Dev, Justin Zhan

Computer Vision Natural Language Processing Training Efficiency & Optimization

2d ago

FedDES: Graph-Based Dynamic Ensemble Selection for Personalized Federated Learning

FedDES achieves instance-level personalization in federated learning by dynamically selecting and weighting peer models with a GNN, leading to significant performance gains in heterogeneous environments.

Brianna Mueller, W. Nick Street

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Ziqi Miao +62d ago

Seeing with You: Perception-Reasoning Coevolution for Multimodal Reasoning

Disentangling perception and reasoning with role-specific rewards in multimodal LLMs boosts accuracy by 7 points, revealing a critical bottleneck in existing joint optimization approaches.

Ziqi Miao, Haonan Jia, Lijun Li +4

Multimodal Models Reasoning & Chain-of-Thought Training Efficiency & Optimization

2d ago

Domain-Invariant Prompt Learning for Vision-Language Models

Adversarial training unlocks domain-invariant prompts for CLIP, boosting zero-shot generalization beyond standard prompt tuning.

Arsham Gholamzadeh Khoee, Yinan Yu, Robert Feldt

Computer Vision Multimodal Models Training Efficiency & Optimization

Minh-Khoi Do +42d ago

TwinMixing: A Shuffle-Aware Feature Interaction Model for Multi-Task Segmentation

Achieve state-of-the-art segmentation accuracy on drivable-area and lane segmentation tasks with a model under 5M parameters, demonstrating that high performance doesn't always require massive architectures.

Minh-Khoi Do, Huy Che, Dinh-Duy Phan +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Junghoon Justin Park +22d ago

Q-DIVER: Integrated Quantum Transfer Learning and Differentiable Quantum Architecture Search with EEG Data

Quantum circuits can match classical MLPs on EEG classification tasks while using 50x fewer parameters, thanks to differentiable quantum architecture search that automatically optimizes circuit topology.

Junghoon Justin Park, Yeonghyeon Park, Jiook Cha

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

Chanseul Cho +42d ago

RecycleLoRA: Rank-Revealing QR-Based Dual-LoRA Subspace Adaptation for Domain Generalized Semantic Segmentation

RecycleLoRA reveals that strategically targeting minor subspace directions in VFMs with LoRA adapters can unlock surprisingly robust domain generalization in semantic segmentation.

Chanseul Cho, Seokju Yun, Jeaseong Jeon +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Yujing Sun +62d ago

Dogfight Search: A Swarm-Based Optimization Algorithm for Complex Engineering Optimization and Mountainous Terrain Path Planning

A new swarm-based optimization algorithm, inspired by dogfighting but built on kinematic equations, achieves state-of-the-art performance across diverse benchmark and real-world engineering problems.

Yujing Sun, Jie Cai, Xingguo Xu +4

Robotics & Embodied AI Training Efficiency & Optimization

Edward Wijaya2d ago

What an Autonomous Agent Discovers About Molecular Transformer Design: Does It Transfer?

Autonomous architecture search for molecular transformers is surprisingly fruitless: you're better off just tuning learning rates.

Edward Wijaya

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

2d ago·also MIT CSAIL

Using Games to Learn How Large Language Models Work

Demystifying LLMs for the masses might be as simple as turning their mechanics into a game.

Allison Chen, Isabella Pu

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Joanna Wiekiera +12d ago

Divide and Restore: A Modular Task-Decoupled Framework for Universal Image Restoration

Forget retraining the whole model when adding a new image degradation type – this modular routing approach lets you plug in a new expert with minimal overhead.

Joanna Wiekiera, Martyna Zur

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Shramana Dey +32d ago

Decoupling Wavelet Sub-bands for Single Source Domain Generalization in Fundus Image Segmentation

Wavelet decomposition offers a surprisingly effective way to disentangle anatomical structure from domain-specific noise in fundus images, leading to state-of-the-art generalization performance.

Shramana Dey, Varun Ajith, Abhirup Banerjee +1

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

Intellindust AI Lab2d ago

A Closer Look at Cross-Domain Few-Shot Object Detection: Fine-Tuning Matters and Parallel Decoder Helps

Simple fine-tuning with a parallel decoder and smart learning rate schedule lets you beat more complex meta-learning approaches in cross-domain few-shot object detection.

Xuanlong Yu, Youyang Sha, Longfei Liu +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Zhen Zou +52d ago

Drift-AR: Single-Step Visual Autoregressive Generation via Anti-Symmetric Drifting

Unlock 5x faster autoregressive image generation by using a single entropy signal to simultaneously optimize draft prediction and enable single-step diffusion decoding.

Zhen Zou, Xiaoxiao Ma, Mingde Yao +3

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

2d ago·also Emory, PKU

MedLoc-R1: Performance-Aware Curriculum Reward Scheduling for GRPO-Based Medical Visual Grounding

Overcome reward sparsity in medical visual grounding by dynamically tightening reward criteria based on model performance, leading to improved localization accuracy and training stability.

Guangjing Yang, Ziyuan Qin, Chaoran Zhang +6

Computer Vision Multimodal Models Training Efficiency & Optimization

Hu Cao +72d ago

Energy-Aware Imitation Learning for Steering Prediction Using Events and Frames

Event cameras, fused with traditional frames using an energy-aware approach, can significantly boost the accuracy of autonomous vehicle steering prediction.

Hu Cao, Jiong Liu, Xingzhuo Yan +5

Computer Vision Robotics & Embodied AI Training Efficiency & Optimization

Wenqi Cai +42d ago

Cost-Matching Model Predictive Control for Efficient Reinforcement Learning in Humanoid Locomotion

Forget painstakingly tuning MPC controllers by hand: this method learns optimal humanoid locomotion policies by aligning MPC cost functions with high-fidelity RL data.

Wenqi Cai, K. Vamvoudakis, Kyriakos G. Vamvoudakis +2

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

Jeonghwan Kim +52d ago

Flip Stunts on Bicycle Robots using Iterative Motion Imitation

Bicycle robots can now do front-flips, thanks to a reinforcement learning method that bootstraps from dynamically infeasible reference motions.

Jeonghwan Kim, Shamel Fahmi, Seungeun Rho +3

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

E.J. Yoon +12d ago

ITQ3_S: High-Fidelity 3-bit LLM Inference via Interleaved Ternary Quantization with Rotation-Domain Smoothing

Achieve FP16-level LLM accuracy at 3-bit quantization, unlocking 1.5x faster inference than 4-bit methods on consumer GPUs.

E.J. Yoon, Edward J. Yoon

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Dominik Walter +52d ago

Loop Control Management in Tightly Coupled Processor Arrays (TCPAs)

Squeezing loop control down to <10% of array resources unlocks near-zero-overhead parallel loop acceleration on Tightly Coupled Processor Arrays.

Dominik Walter, Dominik Walter, Frank Hannig +3

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Guangdong Laboratory of Artificial Intelligence and Digital Economy2d ago·also DAMO

RCLRec: Reverse Curriculum Learning for Modeling Sparse Conversions in Generative Recommendation

Injecting carefully-selected, reverse-ordered behavioral curricula into generative recommendation models can significantly boost conversion rates, as demonstrated by a 2% lift in online advertising revenue.

Chuanfei Xu

Data Curation & Synthetic Data Recommendation & Information Retrieval Training Efficiency & Optimization

Haiyue Song +12d ago

OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-Training

Forget painstakingly tuning data mixture ratios for continual pre-training: OptiMer lets you train individual models and then *optimize* their combination weights *afterward*, cutting search costs by up to 35x.

Haiyue Song, Masao Utiyama

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Muyang He +72d ago

Video Generation Models as World Models: Efficient Paradigms, Architectures and Algorithms

Efficiency is the key bottleneck preventing video generation models from becoming general-purpose world simulators, and this paper provides a taxonomy of techniques to overcome it.

Muyang He, Muyang He, Hanzhong Guo +5

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization World Models & Planning

2d ago·also Fudan, MetaX

Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization

LLMs can now automatically evolve and optimize GPU kernels to beat hand-tuned and proprietary models like Gemini and Claude.

He Du, Qiming Ge, Jiakai Hu +22

Code Generation & Program Synthesis Distributed Systems & Hardware Training Efficiency & Optimization

2d ago

ResAdapt: Adaptive Resolution for Efficient Multimodal Reasoning

Squeezing the most out of your MLLM's visual budget is now possible: ResAdapt learns to allocate visual tokens intelligently *before* encoding, boosting performance by 15% while processing 16x more frames at the same cost.

Huanxuan Liao, Zhongtao Jiang, Yupu Hao +5

Computer Vision Multimodal Models Training Efficiency & Optimization

Caio Vicentino2d ago

PolarQuant: Optimal Gaussian Weight Quantization via Hadamard Rotation for LLM Compression

Hadamard rotations unlock near-lossless 5-bit quantization for LLMs, outperforming standard techniques without calibration data.

Caio Vicentino

Inference & Quantization Training Efficiency & Optimization

Jack Cook +122d ago

Adaptive Block-Scaled Data Types

By cleverly repurposing an unused sign bit, IF4 achieves superior quantization performance compared to NVFP4 without increasing bit-width.

Jack Cook, Jack Cook, Hyemin S. Lee +10

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

Yuma Ichikawa +132d ago

OneComp: One-Line Revolution for Generative AI Model Compression

Automating the messy process of post-training quantization, OneComp lets you compress generative AI models with a single line of code.

Yuma Ichikawa, Keiji Kimura, Akihiro Yoshida +11

Inference & Quantization Training Efficiency & Optimization

Eneko Valero +72d ago·also University of the Basque Country

Merge and Conquer: Instructing Multilingual Models by Adding Target Language Weights

Forget fine-tuning: merging language-specific weights into instruction-tuned LLMs unlocks surprisingly effective instruction following in low-resource languages.

Eneko Valero, E. Valero, Maria Ribalta i Albado +5

Natural Language Processing Open-Source Models & Weights Training Efficiency & Optimization

Leon Witt +42d ago

Democratizing Federated Learning with Blockchain and Multi-Task Peer Prediction

Blockchain-based federated learning can be made practical by using multi-task peer prediction to overcome the computational bottleneck of contribution measurement.

Leon Witt, Kentaroh Toyoda, Wojciech Samek +2

Distributed Systems & Hardware Open-Source Models & Weights Training Efficiency & Optimization

University of Cagliari2d ago·also CINI, Sapienza

Label-efficient Training Updates for Malware Detection over Time

Slash malware detection labeling costs by 90% using combined active and semi-supervised learning, without sacrificing performance.

Luca Minnei, C. Manca, Cristian Manca +8

Data Curation & Synthetic Data Training Efficiency & Optimization

2d ago·also Shanghai AI Lab

Is One-Shot In-Context Learning Helpful for Data Selection in Task-Specific Fine-Tuning of Multimodal LLMs?

Forget expensive full fine-tuning: this training-free data selection method uses in-context learning to slash MLLM training costs while maintaining performance.

Xiao An, Jiaxing Sun, Ting Hu +2

Data Curation & Synthetic Data Multimodal Models Training Efficiency & Optimization

Ningyu Yan +72d ago

Tac2Real: Reliable and GPU Visuotactile Simulation for Online Reinforcement Learning and Zero-Shot Real-World Deployment

Zero-shot visuotactile policies trained in a fast, parallelized simulator can directly control real robots in contact-rich tasks.

Ningyu Yan, Ning Yan, Shuai Wang +5

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

Tiantian Wang +22d ago

FeDMRA: Federated Incremental Learning with Dynamic Memory Replay Allocation

Forget fixed memory budgets: dynamically allocating exemplar storage across federated clients boosts performance in class-incremental learning for heterogeneous medical data.

Tiantian Wang, Xiang Xiang, Simon S. Du

Data Curation & Synthetic Data Distributed Systems & Hardware Training Efficiency & Optimization

2d ago

Warp-STAR: High-performance, Differentiable GPU-Accelerated Static Timing Analysis through Warp-oriented Parallel Orchestration

Intra-warp load imbalance, a major bottleneck in GPU-accelerated Electronic Design Automation, can be eliminated through warp-level parallel orchestration, leading to significant speedups in static timing analysis.

En-Ming Huang, Shih-Hao Hung

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

KMA Solaiman +62d ago

Pre-Deployment Complexity Estimation for Federated Perception Systems

Save time and resources: predict federated learning performance *before* deployment by quantifying dataset and client complexity.

KMA Solaiman, K. Solaiman, Shafkat Islam +4

Computer Vision Distributed Systems & Hardware Training Efficiency & Optimization

2d ago·also University of Colorado

Differentiable Initialization-Accelerated CPU-GPU Hybrid Combinatorial Scheduling

Differentiable optimization can supercharge classical ILP solvers, slashing runtime by 10x on combinatorial scheduling problems.

Mingju Liu, Jiaqi Yin, Alvaro Velasquez +1

Distributed Systems & Hardware Training Efficiency & Optimization

Sijie Fei +32d ago

OptINC: Optical In-Network-Computing for Scalable Distributed Learning

Training large models without communication overhead is now plausible: OptINC uses optical interconnects to perform gradient averaging and quantization directly in the network.

Sijie Fei, Grace Li Zhang, Bing Li +1

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

* Corresponding author2d ago

AXON: An Automated Netlist Optimization Framework for High-Speed Adders

Achieve up to 32.1% energy-delay product improvement in high-speed adders by co-optimizing prefix topology and standard cell mapping, outperforming commercial synthesis tools.

Tiantian Yang, Xuanle Ren, Qingdian Wan +1

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Srivaths Ranganathan +102d ago

Zero-shot Cross-domain Knowledge Distillation: A Case study on YouTube Music

You can boost ranking model performance in low-traffic recommendation systems by directly distilling knowledge from a large-scale, but different, domain like video recommendations.

Srivaths Ranganathan, Nikhil Khani, Shawn Andrews +8

Inference & Quantization Recommendation & Information Retrieval Training Efficiency & Optimization