Google 发布多模态嵌入模型「Gemini Embedding 2」，统一文本、图像、视频与音频向量空间以强化搜索与推荐

AI 2026-03-14 Google, Gemini, 多模态, 嵌入模型, 向量搜索 80 次浏览

Google 于 2026 年 3 月 10 日（美国时间）正式发布多模态嵌入模型 Gemini Embedding 2，并通过 Gemini API 与 Vertex AI 以公测（Public Preview）形式向开发者开放。该模型能够将文本、图像、视频、音频以及文档等不同类型的数据映射到同一向量空间，用于提升搜索、推荐以及 RAG（Retrieval-Augmented Generation，检索增强生成）等 AI 应用的效果。

在同一向量空间处理文本与图像的嵌入模型

嵌入（Embedding）模型是一类将文本、图像等非结构化数据转换为数值向量的 AI 技术。通过这种方式，系统可以计算不同数据之间的语义相似度，因此被广泛应用于语义搜索、推荐系统、聚类分析、文档分类等众多场景，是现代 AI 系统的基础能力之一。

Gemini Embedding 2 的概念示意：模型将文本、图像、视频、音频、文档等多种数据形式向量化，并映射到统一的「embedding 空间」，从而可以在同一空间中进行比较与检索。

与传统仅支持文本的嵌入模型不同，Gemini Embedding 2 原生支持多模态输入，不仅可以处理文本，还能对图像等多种数据类型进行嵌入。通过将不同模态的数据统一映射到同一向量空间，系统可以：

比较图像与文本在语义上的接近程度；
从包含图片的数据库中，根据文本或图像查询相关内容；
在同一检索系统中综合利用多种数据源进行搜索与推荐。

这类多模态嵌入技术可用于构建更智能的搜索与推荐系统，例如：

电商场景中的商品搜索与相似商品推荐；
图文混排内容的个性化推荐；
支持图片与文档混合检索的企业知识库搜索等。

通过 Gemini API 与 Vertex AI 提供

Gemini Embedding 2 通过 Google 的生成式 AI 平台 Gemini API 与 Vertex AI 对外提供服务。开发者可以在现有应用或企业系统中集成该嵌入模型，用于实现：

语义搜索与知识检索功能；
多模态内容的相似度计算与推荐；
面向内部文档与业务数据的智能问答等。

在构建 RAG（检索增强生成）系统时，嵌入模型是关键组件之一。企业可以先利用嵌入模型从内部文档、数据库中检索出与用户问题高度相关的内容，再将这些检索结果提供给生成式 AI，用于生成更准确、更贴合业务语境的回答。近年来，这一模式已成为企业级 AI 应用的主流架构之一。

Gemini Embedding 2 的基准测试结果显示：在文本、图像、视频、音频等多模态检索任务上，相比既有嵌入模型整体性能更优。

gemini-embedding-2-benchmarks.width-1000.format-webp.jpg

目前，Google 将 Gemini Embedding 2 以公测形式开放，希望在真实业务场景中收集开发者反馈，并在此基础上持续改进模型性能与易用性。

Gemini 模型家族扩展的重要一环

此次发布被视为 Google 扩展 Gemini 模型家族 的重要一步。近年来，Google 围绕 Gemini 系列持续推出面向不同场景的模型能力，包括：

文本生成与对话；
多模态理解与推理；
代码生成与开发辅助等。

在这一体系中，嵌入模型扮演着支撑搜索与知识基座的基础设施角色。随着 Gemini Embedding 2 的引入，Google 旨在进一步强化：

搜索系统的语义理解与多模态检索能力；
推荐引擎对图文音视频等多源内容的综合建模能力；
多模态 RAG 与企业知识管理等信息探索平台的整体水平。

借助统一的多模态向量空间，开发者与企业有望更容易地构建跨文本、图像、视频、音频的智能应用，在搜索、推荐与知识问答等领域实现更高精度与更自然的用户体验。

发表评论

登录后才可评论。去登录