April 24 – May 1, 2026

Training Efficiency & Optimization - Weekly Roundup

100 papers published across 6 labs.

Selected Labs publishing this week

Tsinghua AI3 Google Research1 DAMO1 NVIDIA1 ETH1

Top Papers

Apr 30, 2026

3w ago·also Paris-Saclay

Bayesian Policy Gradient and Actor-Critic Algorithms

By modeling policy gradients as Gaussian processes, this work dramatically reduces the sample complexity in reinforcement learning, offering faster convergence and uncertainty estimates at little extra cost.

Mohammad Ghavamzadeh, M. Ghavamzadeh, Yaakov Engel +239

Robotics & Embodied AI Training Efficiency & Optimization

Barcelona Supercomputing Center3w ago·also Czestochowa University of Technology, Universitat Jaume I

A study on the performance of distributed training of data-driven CFD simulations

Distributed GPU training slashes the time needed to train deep learning models for CFD, making accurate fluid simulation predictions accessible in a fraction of the time.

Sergio Iserte, A. González-Barberá, Alejandro González-Barberá +25

Distributed Systems & Hardware Scientific Discovery & Drug Design Training Efficiency & Optimization

3w ago·also Adobe Research, Paris-Saclay

Learning from a single labeled face and a stream of unlabeled data

Unlock face recognition with just one labeled example and a flood of unlabeled data, achieving state-of-the-art accuracy in a practical authentication scenario.

Branislav Kveton, B. Kveton, Michal Valko

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

Mehryar Mohri +23w ago

Linear-Core Surrogates: Smooth Loss Functions with Linear Rates for Classification and Structured Prediction

Get the best of both worlds: Linear-Core Surrogates offer the fast optimization of smooth losses and the statistical efficiency of margin-based losses, without sacrificing differentiability.

Mehryar Mohri, M. Mohri, Yutao Zhong

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Zhenjie Ren +33w ago

Continuous-time q-learning for mean-field control with common noise, part-II: q-learning algorithms

Q-learning can now tackle mean-field control problems with common noise, even when the ideal data is unobservable, opening the door to more realistic and complex multi-agent control scenarios.

Zhenjie Ren, Xiaoli Wei, Xiang Yu +1

Training Efficiency & Optimization

All Papers (100)

May 1, 2026

Sai Niranjan Ramachandran +13w ago

Trees to Flows and Back: Unifying Decision Trees and Diffusion Models

Decision trees and diffusion models are secretly doing the same thing: optimizing a shared objective called Global Trajectory Score Matching.

Sai Niranjan Ramachandran, S. Sra

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Wenda Chu +63w ago

End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer

Jointly training the tokenizer and autoregressive model slashes ImageNet FID to 1.48, finally making end-to-end autoregressive image generation competitive.

Wenda Chu, Bingliang Zhang, Jiaqi Han +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Apr 30, 2026

Himanshu Pandey +33w ago

An adaptive wavelet-based PINN for problems with localized high-magnitude source

PINNs get a wavelet makeover, adaptively focusing on high-magnitude source regions and leaving vanilla methods in the dust on PDEs with extreme loss imbalances.

Himanshu Pandey, Himanshu Pandey, Ratikanta Behera +1

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

Daniel Waxman +53w ago

Sequential Inference for Gaussian Processes: A Signal Processing Perspective

Signal processing practitioners gain a coherent roadmap for deploying sequential Gaussian Processes in real-world systems, bridging the gap between ML advances and practical application.

Daniel Waxman, Daniel Waxman, Fernando Llorente +3

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Arthur Corrêa +53w ago

FiLMMeD: Feature-wise Linear Modulation for Cross-Problem Multi-Depot Vehicle Routing

A single neural net can now solve 24 different multi-depot vehicle routing problems, thanks to a clever modulation technique that adapts to varying constraints.

Arthur Corrêa, Arthur Corrêa, Paulo Nascimento +3

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Shun Takagi +13w ago

Shuffling-Aware Optimization for Private Vector Mean Estimation

Shuffling data introduces a fundamental shift in the privacy-utility tradeoff for mean estimation, rendering locally differentially private (LDP) mechanisms suboptimal.

Shun Takagi, Seng Pei Liew

Distributed Systems & Hardware Training Efficiency & Optimization

Max-Planck-Institut für Informatik3w ago·also Cambridge

Faster 3D Gaussian Splatting Convergence via Structure-Aware Densification

Stop blurring the details: structure-aware Gaussian Splatting densification uses frequency analysis to resolve high-frequency textures faster and with higher quality.

Linjie Lyu, Ayush Tewari, A. Tewari +4

Computer Vision Training Efficiency & Optimization

Tsinghua AI3w ago

Kernelized Advantage Estimation: From Nonparametric Statistics to LLM Reasoning

Kernel smoothing, a classic technique from nonparametric statistics, can make reinforcement learning with LLMs more sample efficient.

Shijin Gong, Kai Ye, Jin Zhu +1

Reasoning & Chain-of-Thought RLHF & Preference Learning Training Efficiency & Optimization

Pourya Zamanvaziri +43w ago

ITS-Mina: A Harris Hawks Optimization-Based All-MLP Framework with Iterative Refinement and External Attention for Multivariate Time Series Forecasting

Ditch the Transformers: a cleverly designed all-MLP architecture, ITS-Mina, rivals state-of-the-art time series forecasting while slashing computational costs.

Pourya Zamanvaziri, Amirhossein Sadr, Aida Pakniyat +2

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Alexis Kafantaris3w ago

Attractor FCM

By combining Newton's method with adaptive gradient descent, this attractor FCM sidesteps premature convergence, offering a more robust approach to learning in complex cognitive maps.

Alexis Kafantaris

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Max Lovig +13w ago

Decoupled Descent: Exact Test Error Tracking Via Approximate Message Passing

Achieve perfect train-test error tracking with a new training algorithm, Decoupled Descent, that eliminates the need for validation sets in certain stylized settings.

Max Lovig, Maxwell Lovig

Scaling Laws & Emergent Abilities Training Efficiency & Optimization

3w ago·also RUC

Taming Noise-Induced Prototype Degradation for Privacy-Preserving Personalized Federated Fine-Tuning

By intelligently perturbing class prototypes based on their discriminative power, VPDR achieves a superior privacy-utility trade-off in federated learning compared to naive Gaussian noise.

Yuhua Wang, Qinnan Zhang, Xiaodong Li +6

Data Curation & Synthetic Data Distributed Systems & Hardware Training Efficiency & Optimization

Radmir Karamov +23w ago

Data-Efficient Indentation Size Effect Correction in Steels Using Machine Learning and Physics-Guided Augmentation

You can accurately predict steel hardness from nanoindentation data with a tiny dataset and some clever physics-based data augmentation, even when traditional methods fail.

Radmir Karamov, Tagir Karamov, T. Karamov

Data Curation & Synthetic Data Scientific Discovery & Drug Design Training Efficiency & Optimization

Piotr Białas +93w ago

Sampling two-dimensional spin systems with transformers

Transformers, typically considered inefficient for spin system sampling, can now outperform CNN-based samplers by generating groups of spins, unlocking larger system sizes and higher effective sample sizes.

Piotr Białas, P. Białas, Piotr Korcyl +7

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

3w ago·also Paris-Saclay

Bayesian Policy Gradient and Actor-Critic Algorithms

Mohammad Ghavamzadeh, M. Ghavamzadeh, Yaakov Engel +239

Robotics & Embodied AI Training Efficiency & Optimization

M. Ali +23w ago·also UCF

FMCL: Class-Aware Client Clustering with Foundation Model Representations for Heterogeneous Federated Learning

Foundation model embeddings reveal hidden structure in federated datasets, enabling surprisingly effective client clustering without any training or communication overhead.

M. Ali, Mahad Ali, Laura J. Brattain

Data Curation & Synthetic Data Distributed Systems & Hardware Training Efficiency & Optimization

Han Liu +33w ago

Low Rank Adaptation for Adversarial Perturbation

Adversarial perturbations in LLMs have an exploitable low-rank structure, enabling more efficient and effective black-box attacks.

Han Liu, Shanghao Shi, Yevgeniy Vorobeychik +1

Red-Teaming & Adversarial Robustness Training Efficiency & Optimization

Yonghao Liu +63w ago

Improving Graph Few-shot Learning with Hyperbolic Space and Denoising Diffusion

Hyperbolic embeddings and denoising diffusion can significantly boost few-shot learning on graphs, outperforming existing Euclidean-based methods.

Yonghao Liu, Jialu Sun, Wei Pang +4

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Ziwei Zhang +13w ago·also University of Ottawa

Sampler-Robust Optimization under Generative Models

Optimizing against the worst-case *sampler*, not just the nominal distribution, yields more stable decisions and better generalization in stochastic optimization with generative models.

Ziwei Zhang, Jonathan Yu-Meng Li

Training Efficiency & Optimization

Nuria Alabau-Bosque +83w ago·also Universitat de València

Parameter-Efficient Architectural Modifications for Translation-Invariant CNNs

CNNs are surprisingly fragile to even single-pixel shifts, but strategically placed global average pooling can fix this with a 98% parameter reduction and no accuracy loss.

Nuria Alabau-Bosque, Jorge Vila-Tomas, J. Vila-Tomás +6

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Hezhao Liu +73w ago·also University of Nottingham

SECOS: Semantic Capture for Rigorous Classification in Open-World Semi-Supervised Learning

Current open-world semi-supervised learning methods fall short in practical applications because they fail to extract latent semantic information, but SECOS overcomes this by directly predicting textual labels from a candidate set, achieving state-of-the-art results.

Hezhao Liu, Jiacheng Yang, Junlong Gao +5

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Kck(∫3w ago·also × increase in training time, D GS and Softmax-GS decreases when more Gaussians are used, Oregon State

Softmax-GS: Generalized Gaussians Learning When to Blend or Bound

Stop those blurry edges: Softmax-GS uses learnable competition between Gaussians to sharpen 3D Gaussian Splatting, achieving state-of-the-art performance in novel view synthesis.

Chen Ziwen, Peng Wang, Hao Tan +2

Computer Vision Training Efficiency & Optimization

3w ago·also ANL

Exploring Sparse Matrix Multiplication Kernels on the Cerebras CS-3

Cerebras CS-3 can deliver 100x speedups over CPU for sparse matrix multiplication at 90% sparsity, but surprisingly, becomes *slower* than CPU beyond 99% sparsity.

Milan Shah, Sheng Di, Michela Becchi

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Barcelona Supercomputing Center3w ago·also Czestochowa University of Technology, Universitat Jaume I

A study on the performance of distributed training of data-driven CFD simulations

Distributed GPU training slashes the time needed to train deep learning models for CFD, making accurate fluid simulation predictions accessible in a fraction of the time.

Sergio Iserte, A. González-Barberá, Alejandro González-Barberá +25

Distributed Systems & Hardware Scientific Discovery & Drug Design Training Efficiency & Optimization

Mingliang Liang +33w ago·also Radboud

Dynamic Cluster Data Sampling for Efficient and Long-Tail-Aware Vision-Language Pre-training

VLMs can get a boost in long-tail performance and train more efficiently by dynamically upsampling underrepresented data clusters each epoch.

Mingliang Liang, Zhuoran Liu, Arjen P. de Vries +1

Data Curation & Synthetic Data Multimodal Models Training Efficiency & Optimization

3w ago·also UIUC

Generalizable Sparse-View 3D Reconstruction from Unconstrained Images

Forget per-scene optimization: GenWildSplat achieves state-of-the-art 3D reconstruction from sparse, unposed images in real-time using a purely feed-forward approach.

Vinayak Gupta, Vinayak Gupta, Chih-Hao Lin +6

Computer Vision Robotics & Embodied AI Training Efficiency & Optimization+1

Yanting Wang +33w ago

FlashRT: Towards Computationally and Memory Efficient Red-Teaming for Prompt Injection and Knowledge Corruption

Red-teaming long-context LLMs just got a whole lot cheaper: FlashRT slashes the compute and memory costs of prompt injection attacks by up to 7x.

Yanting Wang, Chenlong Yin, Ying Chen +1

Inference & Quantization Red-Teaming & Adversarial Robustness Training Efficiency & Optimization

Jiawei Yang +53w ago

Representation Fr\'echet Loss for Visual Generation

Fréchet Distance, previously deemed impractical for training, unlocks surprisingly high-fidelity image generation when optimized in representation space with decoupled batch sizes.

Jiawei Yang, Zhengyang Geng, Xuan Ju +3

Computer Vision Training Efficiency & Optimization

Tsinghua AI3w ago

Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL

Stop letting SFT ruin your LMMs: PRISM uses on-policy distillation to realign your model *before* RL, boosting performance by up to 6%.

Sudong Wang, Weiquan Huang, Xiaomin Yu +10

Multimodal Models RLHF & Preference Learning Robotics & Embodied AI+1

3w ago·also Adobe Research, Paris-Saclay

Learning from a single labeled face and a stream of unlabeled data

Unlock face recognition with just one labeled example and a flood of unlabeled data, achieving state-of-the-art accuracy in a practical authentication scenario.

Branislav Kveton, B. Kveton, Michal Valko

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

Junqi Gao +93w ago

Auto-FlexSwitch: Efficient Dynamic Model Merging via Learnable Task Vector Compression

Forget storing full task-specific models – Auto-FlexSwitch compresses the knowledge into tiny, dynamically assembled task vectors, slashing storage costs without sacrificing accuracy.

Junqi Gao, Junqi Gao, Dazhi Zhang +7

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Akhil Gupta +33w ago

Neural Aided Kalman Filtering for UAV State Estimation in Degraded Sensing Environments

By fusing Bayesian neural networks with Kalman filtering, this work achieves more accurate and robust UAV state estimation than traditional methods in noisy, sparse sensing environments.

Akhil Gupta, Akhil Gupta, Erhan Guven +1

Architecture Design (Transformers, SSMs, MoE)Robotics & Embodied AI Training Efficiency & Optimization

Google Research3w ago

Cost-Aware Learning

Cut your LLM fine-tuning costs by 30% without sacrificing accuracy by intelligently sampling training data based on cost.

Clara Mohri, Amir Globerson, Haim Kaplan +2

Training Efficiency & Optimization

Nghia Bui +33w ago

Dynamic Scaled Gradient Descent for Stable Fine-Tuning for Classifications

Gradient cancellation during fine-tuning can be tamed by simply scaling down the gradients of correctly classified examples, leading to more stable and accurate models.

Nghia Bui, N. Bui, Lijing Wang +1

Natural Language Processing Training Efficiency & Optimization

Marc Dymetman3w ago

Exponential families from a single KL identity

A single KL identity unlocks a surprisingly simple and unified derivation of core results for exponential families, streamlining the theoretical foundations of variational inference, entropy-regularized RL, and RLHF.

Marc Dymetman

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Yanwu Gu +23w ago

Prediction-powered Inference by Mixture of Experts

Combining diverse AI prediction tools as a Mixture of Experts slashes variance in semi-supervised inference, outperforming standard Prediction-Powered Inference.

Yanwu Gu, Linglong Kong, Dong Xia

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Buqing Ou +23w ago

Can Tabular Foundation Models Guide Exploration in Robot Policy Learning?

Tabular foundation models can dramatically accelerate robot policy learning by enabling efficient global exploration within dynamically constructed policy subspaces.

Buqing Ou, Frederike Dümbgen, Frederike Dumbgen

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

Kathrin Korte +33w ago

When Does Structure Matter in Continual Learning? Dimensionality Controls When Modularity Shapes Representational Geometry

Modular architectures in continual learning only matter when representational dimensionality is low, revealing that dimensionality acts as a key control knob for the benefits of structural separation.

Kathrin Korte, Joachim Winter Pedersen, Eleni Nisioti +1

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

DeepWisdom3w ago

ANCORA: Learning to Question via Manifold-Anchored Self-Play for Verifiable Reasoning

Forget learning to answer – ANCORA shows language models can master verifiable reasoning by learning to *question* themselves.

Cheng Yang, Chengcao Yang, Jun Chen

Code Generation & Program Synthesis Reasoning & Chain-of-Thought Training Efficiency & Optimization

Zhenzhou Jin +33w ago

Statistical Channel Fingerprint Construction for Massive MIMO: A Unified Tensor Learning Framework

Ditch the encoder-decoder: LPWTNet's closed-form Laplacian pyramid decomposition offers efficient inference for statistical channel fingerprint construction in massive MIMO systems.

Zhenzhou Jin, Li You, Xiang-Gen Xia +1

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Ingonyama3w ago

Why Self-Supervised Encoders Want to Be Normal

Self-supervised encoders implicitly perform soft clustering on a "predictive manifold" in probability space, and this geometric perspective yields a practical Gaussian regularizer (SIGReg) competitive with variational IB.

Yuval Domb

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Mehryar Mohri +23w ago

Linear-Core Surrogates: Smooth Loss Functions with Linear Rates for Classification and Structured Prediction

Get the best of both worlds: Linear-Core Surrogates offer the fast optimization of smooth losses and the statistical efficiency of margin-based losses, without sacrificing differentiability.

Mehryar Mohri, M. Mohri, Yutao Zhong

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Corinna Cortes +43w ago

Optimized Deferral for Imbalanced Settings

Expert imbalance can cripple learning-to-defer systems, but a novel cost-sensitive margin-based loss function can restore performance.

Corinna Cortes, Anqi Mao, M. Mohri +2

Computer Vision Natural Language Processing Training Efficiency & Optimization

Lei Li +83w ago·also Ickylin AI Team

ChipLingo: A Systematic Training Framework for Large Language Models in EDA

Domain-adapting LLMs for EDA requires explicit RAG scenario training to prevent performance degradation, and QA augmentation during corpus construction further boosts performance.

Lei Li, Xing Yu, Xingwen Yu +6

Code Generation & Program Synthesis Recommendation & Information Retrieval Training Efficiency & Optimization

Zhenjie Ren +33w ago

Continuous-time q-learning for mean-field control with common noise, part-II: q-learning algorithms

Q-learning can now tackle mean-field control problems with common noise, even when the ideal data is unobservable, opening the door to more realistic and complex multi-agent control scenarios.

Zhenjie Ren, Xiaoli Wei, Xiang Yu +1

Training Efficiency & Optimization

Ansar Aynetdinov +23w ago·also Humboldt-Universität zu Berlin

Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling

Forget scaling up data volume: repeating a smaller, high-quality German dataset yields superior language models compared to single-pass training on a larger, less filtered corpus.

Ansar Aynetdinov, Patrick Haller, Alan Akbik

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Vishnuprasadh Kumaravelu +33w ago·also IIT

Post-Optimization Adaptive Rank Allocation for LoRA

Get 4x-10x smaller LoRA models for free with a simple post-processing step that doesn't hurt performance.

Vishnuprasadh Kumaravelu, Sunil Gupta, P. Srijith +1

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Yifang Qin +43w ago

Generative structure search for efficient and diverse discovery of molecular and crystal structures

Discovering new molecules and materials just got 10x cheaper, thanks to a hybrid AI method that blends generative models with physics-based search.

Yifang Qin, Yu Shi, Junfu Tan +2

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

Wenxiang Lin +53w ago·also HIT

ZipCCL: Efficient Lossless Data Compression of Communication Collectives for Accelerating LLM Training

LLM training bottlenecks? ZipCCL achieves up to 1.18x end-to-end speedups by losslessly compressing communication collectives, without sacrificing model quality.

Wenxiang Lin, Xinglin Pan, Ruibo Fan +3

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

Wei Cheng +63w ago

To Diff or Not to Diff? Structure-Aware and Adaptive Output Formats for Efficient LLM-based Code Editing

LLMs can edit code 30% faster and cheaper without sacrificing accuracy, simply by learning to choose between generating full code and structure-aware diffs.

Wei Cheng, Yongchang Cao, Chen Shen +4

Code Generation & Program Synthesis Inference & Quantization Training Efficiency & Optimization

Department of Telematic Engineering3w ago

Variational and Majorization Principles in Lattice Reduction

Lattice reduction, long a dark art, can now be understood as minimizing variance in a Gram-Schmidt profile, leading to new, efficient heuristics.

Javier Blanco-Romero, Florina Almenares Mendoza

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Wenxiao Li +93w ago

Continuous-tone Simple Points: An $\ell_0$-Norm of Cyclic Gradient for Topology-Preserving Data-Driven Image Segmentation

Guaranteeing topological consistency in image segmentation is now possible within deep learning frameworks thanks to a novel differentiable simple point computation method applicable to continuous-valued images.

Wenxiao Li, Wenxiao Li, Faqiang Wang +7

Computer Vision Training Efficiency & Optimization

Ilyass Moummad +83w ago·also CIRAD, INRAE, INRIA, LIRMM +1

Self-Supervised Learning of Plant Image Representations

Seemingly innocuous augmentations like blur can cripple self-supervised learning for fine-grained tasks like plant identification, but domain-aware choices unlock surprisingly strong performance.

Ilyass Moummad, Kawtar Zaher, Hervé Goeau +6

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

Yubo Dong +33w ago

RayFormer: Modeling Inter- and Intra-Ray Similarity for NeRF-Based Video Snapshot Compressive Imaging

NeRFs get a boost in video reconstruction quality by explicitly modeling inter- and intra-ray similarities with a novel transformer architecture.

Yubo Dong, Danhua Liu, Anqi Li +1

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

3w ago

Improving Calibration in Test-Time Prompt Tuning for Vision-Language Models via Data-Free Flatness-Aware Prompt Pretraining

Initializing prompts in flatter regions of the loss landscape dramatically improves calibration and performance in test-time prompt tuning for vision-language models.

Hyeonseo Jang, Hyeon-Gi Jang, Jaebyeong Jeon +3

Computer Vision Multimodal Models Training Efficiency & Optimization

Yuan Fang +63w ago

A generalised pre-training strategy for deep learning networks in semantic segmentation of remotely sensed images

Stop wasting compute pre-training on domain-specific datasets; this simple strategy lets you pre-train on ImageNet and still achieve state-of-the-art results on diverse remote sensing segmentation tasks.

Yuan Fang, Yuanzhi Cai, Jagannath Aryal +4

Computer Vision Data Curation & Synthetic Data Training Efficiency & Optimization

3w ago·also CAS, vivo BlueImage Lab

VeraRetouch: A Lightweight Fully Differentiable Framework for Multi-Task Reasoning Photo Retouching

Ditch the clunky external tools: VeraRetouch slashes model size and unlocks end-to-end training for photo retouching with a fully differentiable architecture.

Yihong Guo, Youwei Lyu, Jiajun Tang +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Hira Saleem +33w ago·also UNSW

PINN-Cast: Exploring the Role of Continuous-Depth NODE in Transformers and Physics Informed Loss as Soft Physical Constraints in Short-term Weather Forecasting

Continuous-depth transformers, augmented with physics-informed loss, can significantly improve short-term weather forecasting, suggesting a promising path for hybrid physics-aware AI models.

Hira Saleem, Flora D. Salim, Flora Salim +1

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

Apr 29, 2026

Ahan Gupta +43w ago·also Snowflake

AutoSP: Unlocking Long-Context LLM Training Via Compiler-Based Sequence Parallelism

Training LLMs on ultra-long contexts just got a whole lot easier: AutoSP automates sequence parallelism and activation checkpointing, boosting context length by up to 2.7x with negligible throughput cost.

Ahan Gupta, Zhihao Wang, Neel Dani +2

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

University of Artificial Intelligence3w ago

COPUS: Co-adaptive Parallelism and Batch Size Selection in Large Language Model Training

Fixing your parallelism strategy while tuning batch size (or vice versa) leaves performance on the table: COPUS adaptively co-tunes both for faster LLM training.

Akhmed Sakip, Erland Hilman Fuadi, Omar Sayedelahl +6

Distributed Systems & Hardware Training Efficiency & Optimization

3w ago

FACT: Compositional Kernel Synthesis with a Three-Stage Agentic Workflow

Automating CUTLASS kernel synthesis and auto-tuning lets you get 2.79x speedups on real models like MiniGPT just by having an LLM rewrite your PyTorch.

Sina Heidari, Dimitrios S. Nikolopoulos

Code Generation & Program Synthesis Tool Use & Agents Training Efficiency & Optimization

Tianhao Hu +163w ago

DORA: A Scalable Asynchronous Reinforcement Learning System for Language Model Training

Asynchronous RL for LLMs doesn't have to sacrifice convergence for speed: DORA achieves 2-4x faster training by cleverly managing multiple policy versions during rollout.

Tianhao Hu, Xiangcheng Liu, Youshao Xiao +14

Distributed Systems & Hardware RLHF & Preference Learning Training Efficiency & Optimization

Timothy Flavin +13w ago

A High-Throughput Compute-Efficient POMDP Hide-And-Seek-Engine (HASE) for Multi-Agent Operations

Training complex multi-agent RL policies just got 3,500x faster thanks to a new engine that optimizes for memory access and data locality.

Timothy Flavin, Sandip Sen

Distributed Systems & Hardware Robotics & Embodied AI Training Efficiency & Optimization

Instituto de Física3w ago

Towards Accelerated SCF Workflows with Equivariant Density-Matrix Learning and Analytic Refinement

Skip the SCF convergence grind: a physically-constrained equivariant neural net slashes the number of iterations needed by up to 81% while also predicting accurate molecular properties in a single shot.

Zuriel Y. Yescas-Ramos, Andrés Álvarez-García, Huziel E. Sauceda

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

DAMO3w ago·also Beihang, ZJU

Advancing multi-site emission control: A physics-informed transfer learning framework with mixture of experts for carbon-pollutant synergy

Transfer learning can unlock scalable emission control across diverse waste incineration plants by learning transferable system-level structures that capture physical constraints, operating-regime heterogeneity, and carbon-pollutant coupling.

Yuxuan Ying, Hanqing Yang, Kaige Wang +3

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

3w ago

LLM-Guided Runtime Parameter Optimization for Energy-Efficient Model Inference

Forget grid search: LLMs can rapidly find energy-efficient inference parameters, outperforming traditional optimization methods with just a few human-guided prompts.

Katelyn Crumpacker, Dimitrios Nikolopoulos

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

3w ago·also IIT Bombay, Rutgers

HQ-UNet: A Hybrid Quantum-Classical U-Net with a Quantum Bottleneck for Remote Sensing Image Segmentation

Quantum circuits can boost classical U-Net performance in remote sensing image segmentation, even with shallow, parameter-efficient designs.

Md Aminur Hossain, Ayush V. Patel, Ikshwaku Vanani +1

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

3w ago

End-to-End and Phase-Level Performance Optimization for Hyperledger Fabric

Overlapping validation and private-data acquisition of successive blocks with state-consistency checks and ledger updates can almost double Hyperledger Fabric's commit throughput.

Pavan Sollu, Aniruddha Mukherjee, Divya Pulivarthi +6

Distributed Systems & Hardware Training Efficiency & Optimization

3w ago

Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

Shrinking diffusion LLMs by distilling across different architectures can yield surprisingly strong performance, even boosting code generation scores by 16 points on HumanEval.

Gongbo Zhang, Wen Wang, Ye Tian +1

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

3w ago

Co-Evolving Policy Distillation

By co-evolving experts through bidirectional policy distillation, CoPD achieves all-in-one integration of text, image, and video reasoning, outperforming domain-specific experts and suggesting a new training paradigm.

Naibin Gu, Chenxu Yang, Qingyi Si +7

Inference & Quantization Training Efficiency & Optimization

Vijay Sadashivaiah +33w ago

Better Models, Faster Training: Sigmoid Attention for single-cell Foundation Models

Ditch softmax attention for sigmoid: it unlocks 25% better cell-type separation, 10% faster training, and rock-solid stability for biological foundation models.

Vijay Sadashivaiah, Georgios Dasoulas, Judith Mueller +1

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

Jinbiao Wei +43w ago

Step-level Optimization for Efficient Computer-use Agents

Frontier models are wasted on routine GUI tasks: a step-level cascade that adaptively invokes stronger models only when lightweight monitors detect progress stalls or semantic drift slashes compute costs without sacrificing performance.

Jinbiao Wei, Kangqi Ni, Yilun Zhao +2

Inference & Quantization Tool Use & Agents Training Efficiency & Optimization

Tsinghua AI3w ago

Efficient Training on Multiple Consumer GPUs with RoundPipe

Fine-tune massive LLMs like Qwen3-235B with 31K context on a single 8x RTX 4090 server, thanks to a novel pipeline schedule that eliminates the weight binding bottleneck.

Yi Luo, Yibin Luo, Shiwei Gao +3

Distributed Systems & Hardware Training Efficiency & Optimization

NVIDIA3w ago

Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding

Speculative decoding, typically used post-RL, can be integrated directly into RL training loops to accelerate LLM rollout generation by up to 2.5x.

Hayate Iso, Tiyasa Mitra, Sudipta Mondal +22

Distributed Systems & Hardware Inference & Quantization RLHF & Preference Learning+1

Dipartimento di Ingegneria e Scienza3w ago·also INRIA, Trento, Université de Lorraine

Bi-Level Optimization for Contact and Motion Planning in Rope-Assisted Legged Robots

Rope-assisted climbing robots can now nimbly navigate complex vertical terrains thanks to a new bi-level optimization strategy that coordinates foothold selection and dynamic motion.

Ruben Malacarne, Ioannis Tsikelis, Enrico Mingo Hoffman +1

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

Mahya Ramezani +13w ago

Rule-based High-Level Coaching for Goal-Conditioned Reinforcement Learning in Search-and-Rescue UAV Missions Under Limited-Simulation Training

Rule-based high-level coaching can drastically improve the safety and sample efficiency of goal-conditioned RL agents in UAV missions, even without pretraining.

Mahya Ramezani, Holger Voos

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

Akshay Karjol +13w ago

Edge AI for Automotive Vulnerable Road User Safety: Deployable Detection via Knowledge Distillation

Quantization crushes large object detection models for edge deployment, but knowledge distillation can resurrect them, even surpassing their original floating-point precision in a much smaller package.

Akshay Karjol, Darrin M. Hanna

Computer Vision Inference & Quantization Training Efficiency & Optimization

Rafael Mayo +13w ago

DMRlib: Easy-coding and Efficient Resource Management for Job Malleability

Unlock 3x higher throughput in your data center by easily converting MPI applications to malleable jobs with a new library.

Rafael Mayo, Enrique S. Quintana-Ortí

Code Generation & Program Synthesis Distributed Systems & Hardware Training Efficiency & Optimization

ETH3w ago·also ANU, Sydney

FloatSOM: GPU-Accelerated, Distributed, Topology-Flexible Self-Organizing Maps

Training a 1024-node SOM on a billion-sample dataset in just over 6 minutes shatters previous scalability limits, thanks to a novel framework that leverages multi-GPU execution, out-of-memory streaming, and flexible topologies.

Tony Xu, Sarah Klamt, Katherine Turner +3

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Anna Golubeva +13w ago

Folding Tensor and Sequence Parallelism for Memory-Efficient Transformer Training & Inference

Squeeze more out of your hardware: TSP lets you shard both weights and activations across the same devices, unlocking memory savings for long-context training and inference.

Anna Golubeva, Quentin Anthony

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Yimeng Shan +83w ago·also ANL, NJUST

SplitFT: An Adaptive Federated Split Learning System For LLMs Fine-Tuning

Fine-tuning LLMs in federated settings just got easier: SplitFT lets clients adapt their cut layers and LoRA ranks, boosting performance and slashing communication costs.

Yimeng Shan, Yimeng Shan, Zhaorui Zhang +6

Distributed Systems & Hardware Natural Language Processing Training Efficiency & Optimization

3w ago·also Vrije Universiteit Amsterdam

What Is the Cost of Energy Monitoring? An Empirical Study on the Overhead of RAPL-Based Tools

Naive RAPL-based energy monitoring can add nearly 50% overhead to your measurements, but optimized tools can keep it negligible.

Jeremy Diamond, Vincenzo Stoico

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

University of Artificial Intelligence3w ago

What Kind of Language is Easy to Language-Model Under Curriculum Learning?

Curriculum learning flips the script on what language structures LMs find "easy," suggesting that training order is a critical factor in shaping their inductive biases.

Nadine El-Naggar, Tatsuki Kuribayashi, Ted Briscoe

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Théo Gigant +23w ago

Decoupling the Benefits of Subword Tokenization for Language Model Training via Byte-level Simulation

Subword tokenization's secret sauce isn't just vocabulary size – it's the boosted training throughput and the subtle linguistic priors baked into subword boundaries.

Théo Gigant, Bowen Peng, Jeffrey Quesnelle

Architecture Design (Transformers, SSMs, MoE)Scaling Laws & Emergent Abilities Training Efficiency & Optimization

3w ago·also DeepMind, AI Sequrity Company

Quantamination: Dynamic Quantization Leaks Your Data Across the Batch

Dynamic quantization, a widely adopted optimization for efficient ML serving, can leak your data to adversaries sharing the same batch.

Hanna Foerster, Ilia Shumailov, Yiren Zhao +2

Inference & Quantization Training Efficiency & Optimization

University of Alabama at Birmingham3w ago

OpenSOC-AI: Democratizing Security Operations with Parameter Efficient LLM Log Analysis

SMBs drowning in security logs can now achieve enterprise-grade threat detection with a lightweight, open-source framework fine-tuned on a tiny LLM.

Chaitanya Vilas Garware, Sharif Noor Zisad

Natural Language Processing Open-Source Models & Weights Training Efficiency & Optimization

Apr 28, 2026

Xuanhao Yang +23w ago

EvoTSC: Evolving Feature Learning Models for Time Series Classification via Genetic Programming

Genetic programming can automatically discover lightweight, generalizable feature extractors for time series classification that outperform standard methods.

Xuanhao Yang, Bing Xue, Mengjie Zhang

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Chu-Cheng Lin +13w ago

How Fast Should a Model Commit to Supervision? Training Reasoning Models on the Tsallis Loss Continuum

Stuck training your reasoning model with RLVR due to a low initial success rate? This paper shows how a Tsallis q-logarithm loss can jumpstart learning by adaptively amplifying gradients, achieving a +14.4 point boost over GRPO on HotPotQA.

Chu-Cheng Lin, Eugene Ie

Reasoning & Chain-of-Thought Training Efficiency & Optimization

3w ago

When Errors Can Be Beneficial: A Categorization of Imperfect Rewards for Policy Gradient

Imperfect rewards can actually *help* policy gradient methods escape local optima, challenging the conventional wisdom that reward accuracy is always paramount.

Shuning Shang, Hubert Strauss, Stanley Wei +2

Natural Language Processing RLHF & Preference Learning Training Efficiency & Optimization

AGH University of Krakow3w ago·also American University

TSN-Affinity: Similarity-Driven Parameter Reuse for Continual Offline Reinforcement Learning

Forget replay buffers: TSN-Affinity shows that similarity-guided parameter reuse in TinySubNetworks can achieve strong performance in continual offline RL.

Dominik Żurek, Kamil Faber, Marcin Pietron +2

Robotics & Embodied AI Training Efficiency & Optimization

Sharma Aditya +23w ago

G-Loss: Graph-Guided Fine-Tuning of Language Models

Fine-tuning language models with a graph-guided loss that captures global semantic relationships can significantly boost classification accuracy and convergence speed.

Sharma Aditya, Agarwal Vinti, Kumar Rajesh

Natural Language Processing Recommendation & Information Retrieval Training Efficiency & Optimization

Sharmin Afroz +13w ago

Deflation-Free Optimal Scoring

Ditch deflation: A new sparse discriminant analysis method sidesteps error propagation and achieves state-of-the-art accuracy by estimating all discriminant vectors simultaneously.

Sharmin Afroz, Brendan Ames

Natural Language Processing Training Efficiency & Optimization

3w ago·also Central Institute of Mental Health, Tübingen

Teacher Forcing as Generalized Bayes: Optimization Geometry Mismatch in Switching Surrogates for Chaotic Dynamics

Teacher forcing, while effective for training RNNs on chaotic systems, fundamentally mismatches the optimization geometry of the true marginal likelihood, potentially harming the learned dynamics.

Andre Herz, Daniel Durstewitz, Georgia Koppe

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Ajmain Inqiad Alam +43w ago

Carbon-Taxed Transformers: A Green Compression Pipeline for Overgrown Language Models

Slash your LLM's carbon footprint by up to 81% without sacrificing performance using a compression pipeline inspired by carbon taxation.

Ajmain Inqiad Alam, Palash Roy, Chanchal K. Roy +2

Code Generation & Program Synthesis Inference & Quantization Training Efficiency & Optimization

Tri-Nhan Vo +23w ago

Improving Diversity in Black-box Few-shot Knowledge Distillation

Augmenting few-shot knowledge distillation with adaptively selected, teacher-confident GAN-generated images dramatically boosts student accuracy.

Tri-Nhan Vo, Dang Nguyen, Kien Do

Computer Vision Inference & Quantization Training Efficiency & Optimization

Shuchen Zhu +33w ago

Subspace Optimization for Efficient Federated Learning under Heterogeneous Data

Federated learning can achieve better accuracy-efficiency trade-offs under heterogeneous data by optimizing within a low-dimensional subspace and using a backfill-style update to retain residual components.

Shuchen Zhu, Zhengyang Huang, Yuqi Xu +1

Distributed Systems & Hardware Training Efficiency & Optimization

Chayanon Kitkana +13w ago

Sustained Gradient Alignment Mediates Subliminal Learning in a Multi-Step Setting: Evidence from MNIST Auxiliary Logit Distillation Experiment

Even when you think you're only teaching a model what *not* to do, sustained gradient alignment can lead to the unintended acquisition of undesirable traits.

Chayanon Kitkana, Shivam Arora

Inference & Quantization Training Efficiency & Optimization

Ritz Aguilar +83w ago

Adaptable phase retrieval for coherent transition radiation spectroscopy based on differentiable physics information

Differentiable physics unlocks adaptable and scalable phase retrieval for coherent transition radiation spectroscopy, outperforming traditional methods by seamlessly incorporating complex experimental effects.

Ritz Aguilar, M. LaBerge, A. Doepp +6

Scientific Discovery & Drug Design Training Efficiency & Optimization

3w ago·also Cornell, Stony Brook

GraphPL: Leveraging GNN for Efficient and Robust Modalities Imputation in Patchwork Learning

Patchwork learning gets a boost: GraphPL uses GNNs to flexibly integrate all observed modalities, achieving SOTA imputation performance even with noisy inputs.

Xingjian Hu, Zuoyu Yan, Jianhua Zhu +3

Distributed Systems & Hardware Multimodal Models Training Efficiency & Optimization

3w ago·also Beijing University of Posts, Caltech

Adaptive Meta-Learning Stochastic Gradient Hamiltonian Monte Carlo Simulation for Bayesian Updating of Structural Dynamic Models

Skip the retraining: AM-SGHMC lets you apply a single trained MCMC sampler to various Bayesian updating problems for similar structures.

Xianghao Meng, James L. Beck, Yong Huang +1

Scientific Discovery & Drug Design Training Efficiency & Optimization