Google Research

×Training Efficiency & Optimization

13 papers from Google Research on Training Efficiency & Optimization

Mar 19, 2026

Seasoning Generative Models for a Generalization Aftertaste

Refining generative models with discriminator guidance provably improves generalization, offering a theoretical justification for techniques like score-based diffusion.

Hisham Husain, Valentin De Bortoli, Richard Nock

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Mar 12, 2026

DeepMind2w ago·also Google Research, USC

Concurrent Prehensile and Nonprehensile Manipulation: A Practical Approach to Multi-Stage Dexterous Tasks

Forget end-to-end training: DexMulti's "retrieve-align-execute" approach lets robots master complex, multi-stage dexterous tasks from just a handful of demonstrations.

Hao Jiang, Haolai Jiang, Yue Wu +3

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

Mar 10, 2026

Google Research3w ago·also Oxford

Democratising Clinical AI through Dataset Condensation for Classical Clinical Models

Dataset condensation, previously limited to neural networks, can now democratize access to clinical data by enabling privacy-preserving training of classical models like decision trees and Cox regression.

Anshul Thakur, Soheila Molaei, P. Nganjimi +5

Data Curation & Synthetic Data Training Efficiency & Optimization

Mar 9, 2026

3w ago·also Google Research

Grow, Don't Overwrite: Fine-tuning Without Forgetting

Forget catastrophic forgetting: this function-preserving expansion method lets you fine-tune without sacrificing pre-trained knowledge, matching full fine-tuning performance at a fraction of the cost.

Dyah Adila, Hanna Mazzawi, Benoit Dherin +1

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Mar 5, 2026

Google Research3w ago·also Apple ML, UW

Dark3R: Learning Structure from Motion in the Dark

See in the dark: Dark3R unlocks structure from motion at signal-to-noise ratios below -4dB, where existing methods completely break down.

Andrew Y Guo, SaiKiran Tedla, Kyros Kutulakos

Computer Vision Robotics & Embodied AI Training Efficiency & Optimization

Mar 4, 2026

Google ResearchMar 4, 2026·also Cornell

ZipMap: Linear-Time Stateful 3D Reconstruction with Test-Time Training

Forget quadratic scaling: ZipMap zips entire 3D scenes from hundreds of images into a compact state in a single pass, unlocking 20x faster reconstruction.

Haian Jin, Rundi Wu, Tianyuan Zhang +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Google ResearchMar 4, 2026

Data-Aware Random Feature Kernel for Transformers

DARKFormer closes the performance gap with exact softmax attention in finetuning by learning a data-aligned kernel geometry for efficient random feature approximation, sidestepping the need for retraining or large feature budgets.

Amirhossein Farzam, Hossein Mobahi, Nolan Andrew Miller +1

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Feb 27, 2026

Google ResearchFeb 27, 2026

Memory Caching: RNNs with Growing Memory

Recurrent models can now achieve Transformer-competitive performance on recall-intensive tasks, thanks to a simple memory caching mechanism that grows memory capacity with sequence length.

Ali Behrouz, Zeman Li, Yuan Deng +3

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Feb 26, 2026

Apple MLFeb 26, 2026·also Google Research, IEEE

TrajTok: Learning Trajectory Tokens enables better Video Understanding

Ditch slow, external segmentation pipelines: TrajTok learns trajectory tokens end-to-end, boosting video understanding while staying lean and adaptable.

Chenhao Zheng, Jieyu Zhang, Jianing Zhang +11

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Feb 24, 2026

Google ResearchFeb 24, 2026

Prompt-Level Distillation: A Non-Parametric Alternative to Model Fine-Tuning for Efficient Reasoning

Forget fine-tuning: Prompt-Level Distillation lets small models match frontier reasoning performance by distilling explicit reasoning patterns into structured system prompts.

Sanket Badhe, Sanket Badhe, Deep Shah +1

Inference & Quantization Reasoning & Chain-of-Thought Training Efficiency & Optimization

Feb 23, 2026

Google ResearchFeb 23, 2026·also EPFL

Less is More: Convergence Benefits of Fewer Data Weight Updates over Longer Horizon

Surprisingly, using only a single inner loop update in data mixing can lead to failure, and the optimal number of inner loop steps scales logarithmically with the parameter update budget.

Rudrajit Das, Neel Patel, Meisam Razaviyayn +1

Training Efficiency & Optimization

Feb 19, 2026

Google ResearchFeb 19, 2026

Unified Latents (UL): How to train your latents

Ditch Stable Diffusion's latents: Unified Latents (UL) achieves state-of-the-art video generation and competitive image generation with fewer training FLOPs.

J. Heek, Jonathan Heek, Emiel Hoogeboom +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Feb 17, 2026

Google ResearchFeb 17, 2026·also Northwestern

On Surprising Effectiveness of Masking Updates in Adaptive Optimizers

Randomly masking parameter updates in RMSProp delivers state-of-the-art LLM training performance, revealing a surprisingly effective form of geometric regularization.

Taejong Joo, Wenhan Xia, Cheolmin Kim +2

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Search

Google Research