March 4 – March 11, 2026

Training Efficiency & Optimization - Weekly Roundup

100 papers published across 5 labs.

21% acceleration

Selected Labs publishing this week

ETH3 CMU ML3 Tsinghua AI3 Amazon Science1 Mila1

Top Papers

Mar 11, 2026

3w ago

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

Stop wasting RL on easy problems: a difficulty-aware curriculum for SFT and RL unlocks better reasoning in LLMs.

Reasoning & Chain-of-Thought RLHF & Preference Learning Training Efficiency & Optimization

3w ago

Frequency-Modulated Visual Restoration for Matryoshka Large Multimodal Models

LMMs can slash FLOPs by 89% without sacrificing accuracy, thanks to a frequency-modulated visual restoration technique that preserves crucial visual semantics even with fewer tokens.

Qingtao Pan, Zhihao Dou, Shuo Li

Computer Vision Multimodal Models Training Efficiency & Optimization

3w ago

Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

LLMs can now synthesize high-performance kernels for niche hardware like NPUs, even with limited data, thanks to a self-evolving agent that bootstraps and refines code via value-driven reinforcement learning.

Yujie Zheng, Zhuo Li, Sheng Zhang +8

Code Generation & Program Synthesis Tool Use & Agents Training Efficiency & Optimization

Shuai Dong +53w ago

In-Memory ADC-Based Nonlinear Activation Quantization for Efficient In-Memory Computing

By intelligently suppressing boundary outliers before quantization, BS-KMQ slashes quantization error by 3x and boosts energy efficiency by 24x in in-memory computing.

Shuai Dong, Junyi Yang, Biyan Zhou +3

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

Yuan Xu +43w ago

PACED: Distillation at the Frontier of Student Competence

Stop wasting compute on easy and impossible examples: PACED distillation focuses your student model's training on the sweet spot where it actually learns.

Yuan Xu, Hejian Sang, Zhengze Zhou +2

Inference & Quantization Training Efficiency & Optimization

All Papers (100)

Mar 11, 2026

3w ago

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

Stop wasting RL on easy problems: a difficulty-aware curriculum for SFT and RL unlocks better reasoning in LLMs.

Reasoning & Chain-of-Thought RLHF & Preference Learning Training Efficiency & Optimization

3w ago

Frequency-Modulated Visual Restoration for Matryoshka Large Multimodal Models

LMMs can slash FLOPs by 89% without sacrificing accuracy, thanks to a frequency-modulated visual restoration technique that preserves crucial visual semantics even with fewer tokens.

Qingtao Pan, Zhihao Dou, Shuo Li

Computer Vision Multimodal Models Training Efficiency & Optimization

3w ago

Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

Yujie Zheng, Zhuo Li, Sheng Zhang +8

Code Generation & Program Synthesis Tool Use & Agents Training Efficiency & Optimization

Shuai Dong +53w ago

In-Memory ADC-Based Nonlinear Activation Quantization for Efficient In-Memory Computing

By intelligently suppressing boundary outliers before quantization, BS-KMQ slashes quantization error by 3x and boosts energy efficiency by 24x in in-memory computing.

Shuai Dong, Junyi Yang, Biyan Zhou +3

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

Yuan Xu +43w ago

PACED: Distillation at the Frontier of Student Competence

Stop wasting compute on easy and impossible examples: PACED distillation focuses your student model's training on the sweet spot where it actually learns.

Yuan Xu, Hejian Sang, Zhengze Zhou +2

Inference & Quantization Training Efficiency & Optimization

Stefanos Pasios +13w ago

HyPER-GAN: Hybrid Patch-Based Image-to-Image Translation for Real-Time Photorealism Enhancement

Achieve real-time photorealistic image enhancement without sacrificing visual quality or semantic consistency, thanks to a novel hybrid training strategy for GANs.

Stefanos Pasios, Nikos Nikolaidis

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Yukiko Uchino +23w ago

Double-Precision Matrix Multiplication Emulation via Ozaki-II Scheme with FP8 Quantization

Forget slow FP64: this work unlocks efficient double-precision matrix multiplication on modern GPUs by adapting the Ozaki-II scheme to run on faster FP8 hardware.

Yukiko Uchino, Katsuhisa Ozaki, Toshiyuki Imamura

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

Amazon Science3w ago

When Fine-Tuning Fails and when it Generalises: Role of Data Diversity and Mixed Training in LLM-based TTS

LoRA fine-tuning can significantly boost the voice cloning capabilities of LLM-based TTS systems, but only if the training data is acoustically diverse enough.

Anupam Purwar, Aditya Choudhary

Natural Language Processing Speech & Audio Training Efficiency & Optimization

3w ago

Differentiable Geometric Indexing for End-to-End Generative Retrieval

By combining differentiable indexing with isotropic geometric optimization, DGI achieves state-of-the-art generative retrieval, especially for long-tail items that are often missed by other methods.

Architecture Design (Transformers, SSMs, MoE)Recommendation & Information Retrieval Training Efficiency & Optimization

Jongwoo Ko +43w ago

Scaling Reasoning Efficiently via Relaxed On-Policy Distillation

Achieve up to 12x greater sample efficiency in reasoning tasks by relaxing strict imitation constraints in on-policy distillation, enabling smaller models to match the performance of much larger ones.

Jongwoo Ko, Sara Abdali, Young Jin Kim +2

Inference & Quantization Reasoning & Chain-of-Thought Training Efficiency & Optimization

3w ago·also IIT Bombay, Shanghai AI Lab, Unitree

SteadyTray: Learning Object Balancing Tasks in Humanoid Tray Transport via Residual Reinforcement Learning

Humanoid robots can now reliably transport objects on a tray in the real world, thanks to a hierarchical RL approach that isolates and cancels gait-induced disturbances.

Anlun Huang, Zhenyu Wu, Simranjeet Singh +2

Robotics & Embodied AI Training Efficiency & Optimization

Yi-Kai Zhang +63w ago·also Plus MMStar RealWorldQA Method

$V_{0.5}$: Generalist Value Model as a Prior for Sparse RL Rollouts

Forget hand-tuning rollout budgets: $V_{0.5}$ dynamically allocates compute to sparse RL rollouts based on a real-time statistical test of a generalist value model's prior, slashing variance and boosting performance.

Yi-Kai Zhang, Yueqing Sun, Hongyan Hao +4

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

Do-Yeon Kim +33w ago

Efficiency vs Demand in AI Electricity: Implications for Post-AGI Scaling

AI electricity demand won't necessarily explode as AI scales – whether it does or doesn't hinges on sustained efficiency improvements outpacing income-driven demand.

Do-Yeon Kim, Jiseok Ahn, H. Mcjeon +1

Distributed Systems & Hardware Scaling Laws & Emergent Abilities Training Efficiency & Optimization

Xian Qin +23w ago

Repurposing Backdoors for Good: Ephemeral Intrinsic Proofs for Verifiable Aggregation in Cross-silo Federated Learning

Forget ZKPs: this federated learning scheme uses "self-destructing" backdoors to verify aggregation integrity, achieving 1000x speedups over traditional crypto.

Xian Qin, Xue Yang, Xiaohu Tang

Distributed Systems & Hardware Training Efficiency & Optimization

3w ago

ASTER: Attitude-aware Suspended-payload Quadrotor Traversal via Efficient Reinforcement Learning

Achieve the seemingly impossible: ASTER uses RL to enable cable-suspended quadrotors to perform autonomous inverted flight.

Dongcheng Cao, Jin Zhou, Shuo Li

Robotics & Embodied AI Training Efficiency & Optimization

Itsuki Hirako +53w ago

ScanDP: Generalizable 3D Scanning with Diffusion Policy

Forget training on massive datasets: this new diffusion policy learns human-like 3D scanning strategies that generalize to unseen objects while being robust to noise.

Itsuki Hirako, R. Hakoda, Yubin Liu +3

Computer Vision Robotics & Embodied AI Training Efficiency & Optimization

3w ago·also York

Thousand-GPU Large-Scale Training and Optimization Recipe for AI-Native Cloud Embodied Intelligence Infrastructure

Training embodied intelligence models just got 40x faster thanks to a thousand-GPU cloud platform and a suite of optimizations spanning data pipelines, model architecture, and infrastructure.

Haoran Sun, Hedan Yang, Jing Long +19

Distributed Systems & Hardware Robotics & Embodied AI Training Efficiency & Optimization

Yuning Wu +23w ago

Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings

By selectively injecting teacher demonstrations only during failure, HAPO overcomes the limitations of both pure RL and mixed-policy optimization in sparse-reward RLVR, enabling models to surpass static teacher forcing.

Yuning Wu, Devin Chen, Kaichen Wei

RLHF & Preference Learning Training Efficiency & Optimization

3w ago·also China Academy of Space Technology

The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training

Subtracting the mean from activations unlocks stable FP4 training for LLMs, closing the performance gap with BF16 without complex spectral methods.

Hengjie Cao, Zhendong Huang, Mengyi Chen +15

Inference & Quantization Training Efficiency & Optimization

3w ago

Geometric Autoencoder for Diffusion Models

Ditch the heuristic latent spaces: Geometric Autoencoders offer a principled way to inject VFM priors into diffusion models, yielding state-of-the-art image generation with better compression and semantic depth.

Hangyu Liu, Jianyong Wang, Yutao Sun

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Fanqi Yu +43w ago

Lifelong Imitation Learning with Multimodal Latent Replay and Incremental Adjustment

Forget catastrophic forgetting: this imitation learning framework remembers up to 65% more while improving AUC by 10-17 points on the LIBERO benchmark.

Fanqi Yu, Matteo Tiezzi, Tommaso Apicella +2

Multimodal Models Robotics & Embodied AI Training Efficiency & Optimization

Zixuan Liu +63w ago

Contact Coverage-Guided Exploration for General-Purpose Dexterous Manipulation

Forget hand-crafted rewards: this new method learns dexterous manipulation by encouraging the robot hand to explore diverse contact patterns on objects, leading to impressive real-world transfer.

Zixuan Liu, Ruoyi Qiao, Chenrui Tie +4

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

IMDEA Software Institute3w ago·also Keysight Technologies, Telefonica Research

Aceso: Carbon-Aware and Cost-Effective Microservice Placement for Small and Medium-sized Enterprises

SMEs can slash carbon emissions by 37% and costs by 3.6% simply by using Aceso's carbon-aware microservice placement, even with regionally limited infrastructure.

Georgia Christofidi, Francisco Álvarez-Terribas, Ioannis Roumpos +3

Distributed Systems & Hardware Training Efficiency & Optimization

Mohammad Aamir Sohail +13w ago

Geo-ADAPT-VQE: Quantum Information Metric-Aware Circuit Optimization for Quantum Chemistry

Forget first-order gradients: Geo-ADAPT-VQE slashes energy error by up to 100x in quantum chemistry calculations by intelligently navigating the quantum state space geometry.

Mohammad Aamir Sohail, T. Koike-Akino

Scientific Discovery & Drug Design Training Efficiency & Optimization

ETH3w ago·also CMU ML

ADMM-based Continuous Trajectory Optimization in Graphs of Convex Sets

Unlock superior trajectories in complex environments with a new ADMM-based solver that jointly optimizes spatial and temporal domains, eliminating the need for complex warm starting.

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

3w ago·also PKU, ZJU

UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

Ditch discrete visual tokens: UniCom achieves SOTA multimodal generation by compressing continuous semantic representations, unlocking better controllability and consistency in image editing.

Yaqi Zhao, Wang Lin, Miles Yang +4

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Training Efficiency & Optimization

Yilin Zou +33w ago

Parallel-in-Time Nonlinear Optimal Control via GPU-native Sequential Convex Programming

Trajectory optimization just got a whole lot faster and more energy-efficient: a GPU-native solver achieves 4x speedup and halves energy consumption compared to optimized CPU baselines.

Yilin Zou, Zhong Zhang, Maxime Robic +1

Distributed Systems & Hardware Robotics & Embodied AI Training Efficiency & Optimization

Tsinghua AI3w ago·also CAS, SUCCESS Lab, ZJU

GLM-OCR Technical Report

A compact 0.9B multimodal model, GLM-OCR, achieves state-of-the-art document understanding by predicting multiple tokens at once, boosting decoding throughput without blowing up memory.

Shuaiqi Duan, Ya-Qi Xue, Weihan Wang +18

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Training Efficiency & Optimization

3w ago·also Tsinghua AI

Neural Field Thermal Tomography: A Differentiable Physics Framework for Non-Destructive Evaluation

Differentiable physics enables high-resolution 3D tomography of subsurface defects by enforcing thermodynamic laws as hard constraints, outperforming traditional methods and PINNs.

Tao Zhong, Yixun Hu, Dongzhe Zheng +2

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

3w ago

P-GSVC: Layered Progressive 2D Gaussian Splatting for Scalable Image and Video

Jointly training layered Gaussian splats boosts reconstruction quality by up to 2.6 dB, proving that coordinating optimization across layers is key for progressive 2D Gaussian splatting.

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Hillary Mutisya +13w ago

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

You can slash ASR error rates in low-resource languages by over 60% with a simple continued pretraining recipe.

Hillary Mutisya, J. Mugane

Natural Language Processing Speech & Audio Training Efficiency & Optimization

3w ago

MAVEN: A Meta-Reinforcement Learning Framework for Varying-Dynamics Expertise in Agile Quadrotor Maneuvers

A single meta-RL policy can now handle 66% mass variations and 70% rotor thrust losses in quadrotors, achieving zero-shot sim-to-real transfer for agile maneuvers.

Jin Zhou, Dongcheng Cao, Xian Wang +1

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

R. University3w ago·also National Institute of Technology, Nippn Corporation, Osaka

Few-Shot Adaptation to Non-Stationary Environments via Latent Trend Embedding for Robotics

Forget fine-tuning: this method adapts robots to changing environments by learning a low-dimensional "Trend ID" embedding, keeping the core model fixed.

Yasuyuki Fujii, Emika Kameda, Hiroki Fukada +15

Robotics & Embodied AI Training Efficiency & Optimization

3w ago·also ETH

Need for Speed: Zero-Shot Depth Completion with Single-Step Diffusion

Ditch the slow diffusion grind: Marigold-SSD delivers zero-shot depth completion in a single step, rivaling discriminative models in speed while retaining diffusion's accuracy.

Computer Vision Inference & Quantization Training Efficiency & Optimization

Yangyang Wang +33w ago

CD-Raft: Reducing the Latency of Distributed Consensus in Cross-Domain Sites

CD-Raft slashes distributed consensus latency by nearly 50% in cross-domain settings, offering a significant speedup for data-intensive AI workloads.

Yangyang Wang, Ziqian Cheng, Yucong Dong +1

Distributed Systems & Hardware Training Efficiency & Optimization

Mila3w ago

LLM2Vec-Gen: Generative Embeddings from Large Language Models

Forget contrastive learning: LLM2Vec-Gen learns text embeddings by representing the *response* an LLM would generate, unlocking safety and reasoning abilities for embedding tasks.

Parishad BehnamGhader, Vaibhav Adlakha, Fabian David Schmidt +3

Natural Language Processing Recommendation & Information Retrieval Training Efficiency & Optimization

3w ago

Bayesian Optimization with Gaussian Processes to Accelerate Stationary Point Searches

A single Bayesian Optimization loop can now handle minimization, single-point saddle searches, and double-ended saddle searches on potential energy surfaces, thanks to a unified framework leveraging Gaussian Processes.

Rohit Goswami Institute Imx, Lab-COSMO, 'Ecole polytechnique f'ed'erale de Lausanne +3

Scientific Discovery & Drug Design Training Efficiency & Optimization

E. D. Napoli +13w ago

Estimating the condition number of Chebyshev filtered vectors with application to the ChASE library

Dynamically selecting QR factorization based on condition number estimates dramatically improves the performance of the ChASE library for solving eigenproblems.

E. D. Napoli, Xinzhe Wu

Scientific Discovery & Drug Design Training Efficiency & Optimization

3w ago

From Images to Words: Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers

Vision-language models can significantly enhance language models through knowledge distillation, even without direct textual understanding, challenging conventional KD paradigms.

Ayan Sengupta, Shantanu Dixit, Md. Shad Akhtar +1

Inference & Quantization Multimodal Models Training Efficiency & Optimization

Chi-Hsun Chiang +43w ago

COT-FM: Cluster-wise Optimal Transport Flow Matching

Straighter flows, better generations: COT-FM carves up complex generative tasks into simpler, cluster-specific flows, leading to faster and more reliable sampling.

Chi-Hsun Chiang, Kuan-Hsun Tu, Jia-Wei Liao +2

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Mar 10, 2026

Management and Statistics University of Milan3w ago·also KTH

Information Theoretic Bayesian Optimization over the Probability Simplex

By respecting the intrinsic geometry of the probability simplex, $\alpha$-GaBO significantly outperforms standard Bayesian optimization in tasks involving probabilities and mixtures.

Federico Pavesi, Antonio Candelieri, Noémie Jaquier

Scientific Discovery & Drug Design Training Efficiency & Optimization

Erkan Turan +13w ago

Generative Drifting is Secretly Score Matching: a Spectral and Variational Perspective

Generative drifting's empirical success is no longer a mystery: it's secretly score matching, but with frequency-dependent convergence bottlenecks that explain the preference for Laplacian kernels.

Erkan Turan, Maks Ovsjanikov

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Profiteya LLC3w ago·also Mass General Brigham

Correction of Transformer-Based Models with Smoothing Pseudo-Projector

Make your transformers more robust to noise and improve training dynamics with a surprisingly simple, lightweight "pseudo-projector" module inspired by multigrid methods.

Vitaly Bulgakov

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Ruihan Xu +23w ago

On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer

Row-normalized optimizers can match Muon's performance on large language models while being faster in large-token and low-loss regimes, offering a practical alternative for pre-training.

Ruihan Xu, Jiajin Li, Yiping Lu

Architecture Design (Transformers, SSMs, MoE)Scaling Laws & Emergent Abilities Training Efficiency & Optimization

Nguyen Tuan Kiet +23w ago

Predictive Spectral Calibration for Source-Free Test-Time Regression

Source-free test-time adaptation for image regression gets a boost with Predictive Spectral Calibration, which aligns target features within the source predictive support and calibrates residual spectral slack, leading to significant performance gains under distribution shifts.

Nguyen Tuan Kiet, Huynh Thanh Trung, Pham Huy Hieu

Computer Vision Training Efficiency & Optimization

Albus Yizhuo Li +13w ago

Variational Routing: A Scalable Bayesian Framework for Calibrated Mixture-of-Experts Transformers

Unlock calibrated uncertainty in Mixture-of-Experts Transformers with VMoER, a Bayesian routing method that slashes calibration error by 94% while barely impacting FLOPs.

Albus Yizhuo Li, Matthew Wicker

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Tatjana Krau +33w ago

Impact of Markov Decision Process Design on Sim-to-Real Reinforcement Learning

Physics-based dynamics models can make or break sim-to-real reinforcement learning, boosting real-world success by 50% in industrial control tasks where simplified models fail.

Tatjana Krau, Jorge Mandlmaier, Tobias Damm +1

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

3w ago·also UZH

DendroNN: Dendrocentric Neural Networks for Energy-Efficient Classification of Event-Based Data

DendroNNs offer a 4x energy efficiency boost over existing neuromorphic hardware by mimicking dendritic computation and training via a gradient-free rewiring mechanism.

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Enming Zhang +23w ago

Evolving Prompt Adaptation for Vision-Language Models

Steer clear of catastrophic forgetting in VLMs with EvoPrompt, a new method that evolves prompts by preserving learned semantic directions while adapting their magnitude.

Enming Zhang, Jiayang Li, Zhenyu Liu

Computer Vision Multimodal Models Training Efficiency & Optimization

3w ago·also SJTU

A Generative Sampler for distributions with possible discrete parameter based on Reversibility

Forget gradients: this new sampler learns complex distributions, even with discrete parameters, by enforcing time-reversibility and comparing forward and backward Markov trajectories.

Zhen Wang, Lishuo Zhang

Scientific Discovery & Drug Design Training Efficiency & Optimization

3w ago·also LLNL

Efficient method for calculation of low-temperature phase boundaries

Accurately predict material phase diagrams at low temperatures with minimal computational cost by combining classical thermodynamics with modern free energy techniques.

Lucas Svensson, Babak Sadigh, Christine Wu +1

Scientific Discovery & Drug Design Training Efficiency & Optimization

J. Tu +63w ago

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

FP64 tensor cores, previously untapped for large-scale scientific computing, now unlock 2x speedups and 83% energy savings in finite element simulations on NVIDIA's latest GPUs.

J. Tu, I. Karlin, J. Camier +4

Distributed Systems & Hardware Scientific Discovery & Drug Design Training Efficiency & Optimization

Huawen Shen +33w ago

Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT

Skip the expensive proxy model training: this training-free method boosts VLLM performance by up to 4.8% using only 10-15% of the data, simply by measuring how much the question *changes* the model's view of the answer.

Huawen Shen, Yi Ban, Tianfan Fu +1

Data Curation & Synthetic Data Multimodal Models Training Efficiency & Optimization

Ganzhao Yuan3w ago

OptEMA: Adaptive Exponential Moving Average for Stochastic Optimization with Zero-Noise Optimality

Forget manual hyperparameter tuning: OptEMA achieves near-optimal deterministic convergence in zero-noise stochastic optimization, adapting automatically.

Ganzhao Yuan

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Yiyang Lu +23w ago

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

LLMs can learn new tasks without forgetting old ones, thanks to a memory-aware replay strategy that selectively rehearses important examples.

Yiyang Lu, Jianlong Chen, Hongyuan Zha

Natural Language Processing Training Efficiency & Optimization

3w ago

Two Teachers Better Than One: Hardware-Physics Co-Guided Distributed Scientific Machine Learning

Distributing SciML models with hardware and physics awareness slashes latency and energy consumption by over 8x and 33x, respectively, while paradoxically *improving* reconstruction fidelity.

Yuchen Yuan, Junhuan Yang, Hao Wan +4

Distributed Systems & Hardware Scientific Discovery & Drug Design Training Efficiency & Optimization

3w ago·also Ningbo No, PolyU

Upper Generalization Bounds for Neural Oscillators

Regularizing Lipschitz constants in MLPs within neural oscillators provably and practically enhances generalization, offering a path to more robust learning of complex dynamical systems.

Zifeng Huang, Konstantin M. Zuev, Yong Xia +1

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Zhifei Zhang +33w ago

End-to-End Direction-Aware Keyword Spotting with Spatial Priors in Noisy Environments

Spatial audio cues and directional priors can be jointly learned end-to-end to significantly boost keyword spotting accuracy in noisy environments, outperforming traditional cascaded approaches.

Zhifei Zhang, Yu Gao, Xiaofeng Mou +1

Architecture Design (Transformers, SSMs, MoE)Speech & Audio Training Efficiency & Optimization

Universidade Federal de Minas Gerais3w ago

Idempotent Slices with Applications to Code-Size Reduction

Achieve up to 7.24% code-size reduction by identifying and extracting idempotent backward slices, enabling the merging of non-contiguous instruction sequences within and across functions.

Rafael Alvarenga de Azevedo, Daniel Augusto Costa de Sa, Rodrigo Caetano Rocha

Code Generation & Program Synthesis Inference & Quantization Training Efficiency & Optimization

3w ago·also Cornell, Soochow, University of Liverpool

GAST: Gradient-aligned Sparse Tuning of Large Language Models with Data-layer Selection

Forget laboriously sifting through layers or datasets for PEFT: GAST co-optimizes both, adaptively picking the most impactful data for each layer based on gradient alignment.

Kai Yao, Zhenghan Song, Kaixin Wu +5

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

S. M. A. Sharif +33w ago

Decoder-Free Distillation for Quantized Image Restoration

Achieve near-FP32 image restoration performance with an Int8 model that runs at 442 FPS on NVIDIA Jetson Orin, all thanks to a quantization-aware distillation framework that avoids decoder distillation.

S. M. A. Sharif, Abdur Rehman, Seongwan Kim +1

Computer Vision Inference & Quantization Training Efficiency & Optimization

3w ago

MO-Playground: Massively Parallelized Multi-Objective Reinforcement Learning for Robotics

Forget waiting hours: this MORL framework achieves 270x speedups on robotics tasks thanks to GPU-native parallelization.

Neil C. Janwani, Ellen R. Novoseller, V. Lawhern +1

Distributed Systems & Hardware Robotics & Embodied AI Training Efficiency & Optimization

Kağan Akman +23w ago

An Optimal Control Approach To Transformer Training

Ditch finicky gradient descent: this paper recasts Transformer training as an optimal control problem, guaranteeing global optimality and robustness.

Kağan Akman, Naci Saldı, Serdar Yüksel

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

ETH3w ago

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

Get 6x the RLHF alignment for your LLM with a new active learning pipeline that focuses on annotating the most informative response pairs.

Data Curation & Synthetic Data RLHF & Preference Learning Training Efficiency & Optimization

3w ago

Nonparametric Variational Differential Privacy via Embedding Parameter Clipping

Tighter privacy guarantees and higher utility in language models are simultaneously achievable via a principled parameter clipping strategy for Nonparametric Variational Differential Privacy.

Dina El Zein, Shashi Kumar, James Henderson

Constitutional AI & AI Ethics Natural Language Processing Training Efficiency & Optimization

3w ago

Memorization capacity of deep ReLU neural networks characterized by width and depth

Forget parameter counts – the true memorization capacity of deep ReLU networks is fundamentally bounded by the product of squared width and squared depth, $W^2L^2$, scaling linearly with data size.

Xin Yang, Yunfei Yang

Architecture Design (Transformers, SSMs, MoE)Scaling Laws & Emergent Abilities Training Efficiency & Optimization

Shumin Yao +53w ago·also (Corresponding author: Rui Meng and Xiaodong

Unlocking High-Fidelity Analog Joint Source-Channel Coding on Standard Digital Transceivers

Finally, analog joint source-channel coding can be deployed on standard digital transceivers, unlocking the potential of semantic communication on existing infrastructure.

Shumin Yao, Yaping Sun, Nan Ma +3

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

3w ago

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

ConvNets strike back: a ConvNeXt-based diffusion model matches Transformer performance at half the FLOPs and 7x faster training, all on just 4 GPUs.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Lionel Yelibi3w ago

a-TMFG: Scalable Triangulated Maximally Filtered Graphs via Approximate Nearest Neighbors

TMFGs can now scale to millions of data points thanks to a-TMFG, which approximates the correlation matrix on-the-fly using kNN graphs and clever memory management.

Lionel Yelibi

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Chang-Yong Song +13w ago

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

Chamfer distance, the workhorse loss for point cloud tasks, can actually *increase* when you optimize it, unless you use non-local coupling to avoid gradient collapse.

Chang-Yong Song, David Hyde

Computer Vision Training Efficiency & Optimization

3w ago

On Regret Bounds of Thompson Sampling for Bayesian Optimization

GP Thompson Sampling's reliance on probability $\delta$ dooms it to polynomial regret, a stark contrast to GP-UCB's more favorable bounds.

Shion Takeno, S. Iwazaki

Training Efficiency & Optimization

Elian Alfonso Lopez Preciado3w ago

Dynamic Precision Math Engine for Linear Algebra and Trigonometry Acceleration on Xtensa LX6 Microcontrollers

Get up to 24x faster sine/cosine calculations on ESP32 microcontrollers by dynamically switching between fixed-point and floating-point precision.

Elian Alfonso Lopez Preciado

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

3w ago·also Fudan, Shanghai AI Lab

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

Muon's "one-size-fits-all" spectral update is holding back your models: Mousse adapts to curvature and cuts training time by 12%.

Yechen Zhang, Shuhao Xing, Junhao Huang +2

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Elisabeth Sommer James +23w ago

MM-algorithms for traditional and convex NMF with Tweedie and Negative Binomial cost functions and empirical evaluation

Ditching Gaussian and Poisson noise assumptions in NMF can dramatically improve model fit and feature recovery, especially when using Tweedie and Negative Binomial distributions for overdispersed data.

Elisabeth Sommer James, Asger Hobolth, Marta Pelizzola

Scientific Discovery & Drug Design Training Efficiency & Optimization

Taegyeong Lee +33w ago

DEO: Training-Free Direct Embedding Optimization for Negation-Aware Retrieval

Forget fine-tuning: this training-free method boosts retrieval accuracy for tricky negation queries by up to 10% using clever embedding optimization.

Taegyeong Lee, Jiwon Park, Seunghyun Hwang +1

Natural Language Processing Recommendation & Information Retrieval Training Efficiency & Optimization

3w ago

Exploiting Label-Aware Channel Scoring for Adaptive Channel Pruning in Split Learning

Achieve higher accuracy and faster convergence in split learning by intelligently pruning communication channels based on label awareness.

Jialei Tan, Xiangming Cai, Ruoxi Zhu +2

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

Tsinghua AI3w ago·also Tencent AI

RiO-DETR: DETR for Real-time Oriented Object Detection

RiO-DETR makes real-time oriented object detection with transformers a reality by cleverly decoupling angle estimation and injecting angular diversity into dense supervision.

Zhangchi Hu, Yifan Zhao, Yansong Peng +8

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Paolo Leopardi +33w ago

On the Cost of Evolving Task Specialization in Multi-Robot Systems

Task specialization in robot swarms doesn't always improve efficiency, especially when you're on a tight optimization budget.

Paolo Leopardi, Heiko Hamann, Jonas Kuckling +1

Robotics & Embodied AI Training Efficiency & Optimization

Palmer Schallon3w ago

Surgical Repair of Collapsed Attention Heads in ALiBi Transformers

Pretrained ALiBi transformers suffer from a widespread attention collapse that can be surgically repaired to yield a 25% perplexity improvement, suggesting that standard pretraining leaves performance on the table.

Palmer Schallon

Architecture Design (Transformers, SSMs, MoE)Open-Source Models & Weights Training Efficiency & Optimization

Muhammad Ahmad +23w ago

On Catastrophic Forgetting in Low-Rank Decomposition-Based Parameter-Efficient Fine-Tuning

Tensor-based PEFT methods like LoRETTA can dramatically reduce catastrophic forgetting in sequential learning by capturing richer structural information within compact parameter budgets.

Muhammad Ahmad, Jingjing Zheng, Yankai Cao

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Alberto Fernández-Hernández +53w ago

When Learning Rates Go Wrong: Early Structural Signals in PPO Actor-Critic

Forget return curves – a simple measure of neuron activation patterns (OUI) at just 10% of training can predict PPO performance better than existing methods, enabling early pruning of bad runs.

Alberto Fernández-Hernández, Cristian Pérez-Corral, Jose I. Mestre +3

Interpretability & Mechanistic Interp Training Efficiency & Optimization

3w ago

A Unified Hierarchical Multi-Task Multi-Fidelity Framework for Data-Efficient Surrogate Modeling in Manufacturing

Achieve up to 23% better prediction accuracy in manufacturing surrogate modeling by jointly modeling inter-task similarity and data fidelity using a hierarchical Bayesian approach.

Manan Mehta, Zhiqiao Dong, Yuhang Yang +1

Data Curation & Synthetic Data Scientific Discovery & Drug Design Training Efficiency & Optimization

Corresponding Author3w ago

FreqCycle: A Multi-Scale Time-Frequency Analysis Method for Time Series Forecasting

By explicitly modeling mid-to-high frequency patterns often ignored by existing methods, FreqCycle unlocks state-of-the-art time series forecasting accuracy while maintaining faster inference.

Boya Zhang, Shuaijie Yin, Huiwen Zhu +1

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Bunlong Lay +13w ago

A Fast Solver for Interpolating Stochastic Differential Equation Diffusion Models for Speech Restoration

Achieve comparable speech restoration quality with conditional diffusion models using 10x fewer neural network evaluations via a novel iSDE solver.

Bunlong Lay, Timo Gerkmann

Inference & Quantization Speech & Audio Training Efficiency & Optimization

3w ago

Evidential Perfusion Physics-Informed Neural Networks with Residual Uncertainty Quantification

Quantifying uncertainty in physics-informed neural networks for medical imaging boosts accuracy and reliability, leading to better stroke assessment.

Junhyeok Lee, Minseo Choi, Han Jang +5

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

3w ago

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Stop CIL models from catastrophically forgetting by explicitly minimizing causal incompleteness within tasks and maximizing separability between tasks.

Zhen Zhang, Jielei Chu, Tianrui Li

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

3w ago·also Cohere

FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation

FrameDiT achieves state-of-the-art video generation by ditching token-level attention for a novel matrix-based attention that operates directly on entire frames.

Minh Khoa Le, Kien Do, Duc Thanh Nguyen +1

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

CMU ML3w ago·also Texas A&M

Better Bounds for the Distributed Experts Problem

Forget shaving yaks – this new protocol slashes communication costs in distributed expert learning while *improving* regret bounds.

David P. Woodruff, Samson Zhou

Distributed Systems & Hardware Training Efficiency & Optimization

3w ago·also CMU ML

Stein Variational Ergodic Surface Coverage with SE(3) Constraints

Robots can now achieve superior surface coverage with precise end-effector poses thanks to a new SE(3)-aware Stein Variational Gradient Descent method that outperforms existing trajectory optimization techniques.

Jiayun Li, Yufeng Jin, Sangli Teng +2

Robotics & Embodied AI Training Efficiency & Optimization

Norwegian University of Science and Technology3w ago·also Simula Research Laboratory

Temporal-Conditioned Normalizing Flows for Multivariate Time Series Anomaly Detection

Time series anomaly detection gets a boost from temporal-conditioned normalizing flows that capture complex temporal dynamics and uncertainty.

Helge Langseth, Kenth Engø-Monsen, Heri Ramampiaro

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Ashkan Panahi3w ago

A Gaussian Comparison Theorem for Training Dynamics in Machine Learning

Gordon's comparison theorem bridges the gap between complex ML training dynamics and tractable surrogate systems, offering a path to more accurate non-asymptotic analysis.

Ashkan Panahi

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Shuangfei Zhai3w ago

Exclusive Self Attention

Transformers get a surprising boost in language modeling performance by simply ignoring "themselves" during attention.

Shuangfei Zhai

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Tung Tran +23w ago

LCA: Local Classifier Alignment for Continual Learning

Stop catastrophic forgetting in continual learning by better aligning your classifiers to your feature backbone with a new loss function.

Tung Tran, Danilo Vasconcellos Vargas, Khoat Than

Natural Language Processing Training Efficiency & Optimization

3w ago·also PKU

You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

Even when paraphrasing content that explicitly contradicts a teacher's preferences, language models can still subliminally learn those preferences, raising serious concerns about bias propagation in self-training scenarios.

Isaia Gisler, Zhonghao He, Tianyi Qiu

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Simon Brandt +43w ago

A Variational Latent Equilibrium for Learning in Cortex

Bridging the gap between deep learning and neuroscience, this work presents a biologically plausible alternative to backpropagation through time, potentially unlocking new avenues for brain-inspired AI.

Simon Brandt, Paul Haider, Walter Senn +2

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

3w ago

An Empirical Study and Theoretical Explanation on Task-Level Model-Merging Collapse

Forget parameter conflicts: representational incompatibility is the real culprit behind LLM merging failures, setting fundamental limits on which tasks can be successfully combined.

Yuan Cao, Dezhi Ran, Yuzhe Guo +4

Architecture Design (Transformers, SSMs, MoE)Open-Source Models & Weights Training Efficiency & Optimization

3w ago

Model Merging in the Era of Large Language Models: Methods, Applications, and Future Directions

Forget ensembling or retraining: model merging lets you Frankenstein LLMs for specialized skills at minimal cost.

Inference & Quantization Open-Source Models & Weights Training Efficiency & Optimization

Onur Günlü3w ago

Randomized Distributed Function Computation (RDFC): Ultra-Efficient Semantic Communication Applications to Privacy

Achieve up to two orders of magnitude reduction in semantic communication rate by strategically incorporating common randomness in a privacy-preserving distributed computation framework.

Onur Günlü

Distributed Systems & Hardware Inference & Quantization Training Efficiency & Optimization

Freeman Cheng +33w ago

ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare

Forget SLAM, ReCoSplat uses a "Render-and-Compare" module to autoregressively refine Gaussian Splatting reconstructions, even from unposed video, achieving SOTA novel view synthesis.

Freeman Cheng, Xueting Li, Junqi You +1

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Shiyi Chen +73w ago

SEA-Nav: Efficient Policy Learning for Safe and Agile Quadruped Navigation in Cluttered Environments

Quadruped robots can now learn to navigate complex, real-world environments in minutes, not hours, thanks to a new RL framework that prioritizes safety and efficient exploration.

Shiyi Chen, Mingye Yang, Haiyan Mao +5

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning