Google ResearchPKUTJUUniversity of California at BerkeleyMay 26, 2026arXiv:2605.27295

Gemini Embedding 2: A Native Multimodal Embedding Model from Gemini

Madhuri Shanbhogue, Madhuri Shanbhogue, Zhe Li, Shanfeng Zhang, Gustavo Hernández Abrego, Gustavo Hernández Ábrego, Shih-Cheng Huang, Shih-Cheng Huang, Aashi Jain, Aashi Jain, Daniel Salz, Daniel M. Salz, Sonam Goenka, Sonam Goenka, Chaitra Hegde, Chaitra Hegde, Ji Ma, Feiyang Chen, Feiyang Chen, Jiaxing Wu, Jiaxing Wu, Tanmaya Dabral, T. Dabral, Babak Samari, Babak Samari, Kevin Poulet, Kevin Poulet, Daniel Cer, Daniel Matthew Cer, Kaifeng Chen, Paul Suganathan, Paul Suganathan, Hui Hui, Hui Hui, Jovan Andonov, Jovan Andonov, Philippe Schlattner, Philippe Schlattner, Jay Han, Jay Han, Iftekhar Naim, Iftekhar Naim, Wing W. Lowe, Wing Lowe, Vladimir Pchelin, V. Pchelin, Albert Yang, Albert Yang, Yi-Ting Chen, Yi-Ting Chen, Zhongli Ding, Z. Ding, Grace Zhang, G. Heigold, Georg Heigold, Yichang Chen, Yichang Chen, Antoine Reveillon, Antoine Reveillon, Brendan Mccloskey, Brendan McCloskey, Wenlei Zhou, Dahun Kim, Dahun Kim, Rui Meng, Rui Meng, Emma Wang, Emma Wang, Jack Zheng, Jack Zheng, Halley Fede, Halley Fede, Keegan Mosley, Keegan Mosley, B. Potetz, Brian Potetz, Sahil Dua, Sahil Dua, Henrique Schechter Vera, Henrique Schechter Vera, Shen Gao, Shen Gao, Hesen Zhang, Andreas Hess, Andreas Heß, Hengxuan Ying, Hengxuan Ying, Alberto Montes, Alberto Montes, Karan Gill, Karan Gill, Minje Choi, Min Choi, Sebastian Russo, S. Russo, Anja Hauth, Anja Hauth, Jinhyuk Lee, Michael Boratko, Michael Boratko, Megan Barnes, Megan Barnes, Vikram Rao, Vikram Rao, Claudiu Musat, C. Musat, Cyril Allauzen, Cyril Allauzen, Ehsan Variani, Ehsan Variani, Shankar Kumar, Shankar Kumar, Tom Bagby, Tom Bagby, Junyi Jiao, Junyi Jiao, Yang Gu, Yanggan Gu, Teng Li, Tengxin Li, Ayush Agrawal, Ayush Agrawal, Roberto Santana, Roberto Santana, Dev Nath, D. Nath, Stephen Karukas, Stephen Karukas, Shuoxuan Han, Shuo Han, Lucia Loher, Lucia Loher, Alice Twu, Alice Twu, Nidhi Vyas, Nidhi Vyas, Siddharth Bhai, Siddharth Bhai, Frank Palma Gomez, Frank Palma Gomez, Wangyuan Zhang, Chaoren Liu, Chao Liu, Jizheng Yang, Jizheng Yang, Steve Qiu, Steve Qiu, Shijie Zhang, Sujay Kulkarni, Sujay V Kulkarni, S. Rothe, Sascha Rothe, Sean Nakamoto, Shawn E Nakamoto, Raphael Hoffmann, Raphael Hoffmann, Zach Gleicher, Zach Gleicher, Yu-Shun Sung, Yunhsuan Sung, Qin Yin, Qingfeng Yin, Tom Duerig, Tom Duerig, Mojtaba Seyedhosseini, Mojtaba Seyedhosseini

AI Summary

Gemini Embedding 2 is introduced as a native multimodal embedding model, leveraging the Gemini architecture to embed video, audio, image, and text into a unified space. The model is trained using large-scale contrastive learning in a multi-task, multi-stage setup, enabling it to handle arbitrary combinations of interleaved inputs across modalities. Gemini Embedding 2 achieves state-of-the-art performance on unimodal, cross-modal, and multimodal retrieval benchmarks, demonstrating strong zero-shot generalization across diverse domains.

Key Contribution

Gemini Embedding 2's unified multimodal embeddings beat specialized models across diverse tasks and even generalize zero-shot to niche fields like astronomy and culinary arts.

Abstract

We introduce Gemini Embedding 2, a native multimodal embedding model that allows embedding video, audio, image, and text modalities in a unified representation space. We leverage the multimodal capabilities of Gemini to produce embeddings for arbitrary combinations of interleaved inputs across all these modalities that generalize well across a wide variety of tasks. Applying large-scale contrastive learning in a multi-task multi-stage training setup, we achieve state-of-the-art performance on key embedding benchmarks including unimodal, cross-modal, and multimodal retrieval spanning a diverse set of tasks. We show that our embedding model demonstrates strong performance (with a score of 62.9 R@1 on MSCOCO, 68.8 NDCG@10 on Vatex, 69.9 on MTEB multilingual and 84.0 on MTEB Code) across a variety of tasks surpassing the performance of specialized models. These unified capabilities make Gemini Embedding 2 a promising candidate for downstream use cases such as RAG, recommendation and search. Furthermore, its robust zero-shot performance across distinct fields - from astronomy and bioscience to fine arts and the culinary arts - establishes it as a highly reliable, out-of-the-box representation even for specialized domains.

Eval Frameworks & Benchmarks Multimodal Models Recommendation & Information Retrieval

Citation Metrics

Citations0

Influential citations0

References45

Year2026

VenueN/A

Related Papers

Finding related papers...

Search

Gemini Embedding 2: A Native Multimodal Embedding Model from Gemini

Related Papers