谷歌发布多项AI新进展：个人代理助手与多模态视频模型即将上线

科学 2026-05-22 谷歌, 人工智能, Gemini, AI代理, 可穿戴设备 14 次浏览

谷歌在年度开发者大会 Google I/O 上公布了一系列全新的人工智能工具和系统，其中最受关注的是一款能够主动替用户执行任务的个人 AI 助手。

“代理式”人工智能成为本次大会的核心关键词。谷歌即将推出的 AI 代理 Gemini Spark，是周二发布的众多新品之一。

谷歌首席执行官桑达尔·皮查伊在加州山景城总部附近的圆形剧场对现场观众表示：“我们已经坚定迈入代理式 Gemini 时代。我试用了各种代理，你能清楚看到它们的潜力，但在让代理变得易用、极其安全并真正有用方面，我们仍处在早期阶段。”

谷歌及其母公司 Alphabet 近年来在人工智能领域投入了数十亿美元。公司首席财务官在四月底的投资者电话会议中称，今年资本支出可能高达 1900 亿美元。投入正在显现回报：最新季度财报显示营收强劲增长，自上月公布业绩以来，股价又上涨了 11%。

皮查伊在主题演讲中透露，Gemini 应用在去年拥有约 4 亿月活跃用户，如今这一数字已超过 9 亿，一年内增长逾一倍。

Gemini 3.5 系列正式登场

谷歌最新一代模型系列 Gemini 3.5 已于周二面向全球数十亿用户逐步推出，首发的是 Gemini 3.5 Flash。该模型主打速度，谷歌称其是迄今为止公司最强大的代理式与代码生成模型之一，同时推理和响应速度比部分竞品快约四倍。

目前，Gemini 3.5 Flash 已成为 Gemini 应用以及谷歌搜索“AI 模式”的默认模型。公司也在开发 Gemini Pro 的 3.5 版本，已在内部测试，预计将于下月对外发布。

谷歌表示，Gemini 3.5 在安全训练和风险缓解方面采用了更先进的方法，使模型更不易生成有害内容，也更少出现对安全问题的错误拒答。

与此同时，谷歌还公布了新模型 Gemini Omni。用户可以通过文本、图片、视频或音频等任意输入，生成高质量视频，并可通过与模型对话的方式对视频进行轻松编辑。未来，用户还将能使用 Omni 生成图像和音频，但具体上线时间尚未公布。

公司称，得益于对重力、动能、流体动力学等物理规律的建模能力，Omni 生成的视频在运动和场景表现上比其他模型更逼真。

Gemini Omni Flash 是 Omni 系列的首款产品，将于周二起通过 Gemini 应用和 Google Flow 向 Google AI Plus、Pro 和 Ultra 订阅用户开放。本周内，该功能也会在 YouTube Shorts 和 YouTube Create App 中免费提供。

所有由 Omni 生成的视频都会嵌入谷歌不可见的数字水印 SynthID。谷歌还将在 Gemini 应用中加入内容凭证验证工具，用于判断照片或视频是由 AI 生成，还是由手机拍摄后再经 AI 工具编辑。该验证功能将在未来几个月内扩展到 Chrome 搜索中。

谷歌同时宣布，OpenAI、Kakao 和 Eleven Labs 等 AI 公司将采用 SynthID 技术，为更多 AI 生成内容提供可验证标记。

全天候 AI 代理与可穿戴设备

由 Gemini 3.5 驱动的 Gemini Spark 被定位为“全天候”代理，可自动处理整理会议记录、邮件和聊天内容等繁琐事务，并生成包含关键信息和待办事项的文档。与许多现有代理不同，Spark 完全基于云端运行，即便用户关闭笔记本电脑或锁定手机，它仍可在后台持续工作。

这类 AI 代理的主动性，是其区别于传统聊天机器人的关键特征，也引发了外界对技术权限边界的讨论。谷歌表示，Gemini Spark 在执行“高风险”操作（如发送邮件或完成购买）前，会明确征求用户授权。

部分测试用户将从周二起获得 Spark 的试用资格，公司计划向美国地区的 Google AI Ultra 订阅用户推出测试版。

谷歌称，Gemini Spark 将在今年夏末直接集成到 Chrome 浏览器中运行。

在本次大会的众多 AI 公告中，备受期待的谷歌智能眼镜更新也正式亮相。新一代产品将分为两类：一类是提供语音交互的音频眼镜，另一类是可显示视觉信息的显示眼镜。音频眼镜将率先上市，预计在今年秋季晚些时候发售。

用户可通过说出“Hey Google”或轻触镜框侧面唤醒 Gemini，随后即可获得导航指引、手机通讯管理、实时翻译等多种辅助功能。

谷歌与三星以及眼镜品牌 Gentle Monster、Warby Parker 合作开发了这些设备，并在周二首次展示了两款设计样式：一款是 Gentle Monster 的太阳镜，另一款是 Warby Parker 的眼镜。谷歌表示，这些设计将作为各品牌完整产品线的一部分，于今年晚些时候正式推出。

搜索与购物体验中的 AI 升级

在去年的 Google I/O 上，谷歌搜索引擎引入了“AI 模式”，在展示传统链接结果前，先以更具对话感的方式回答用户问题，从而改变了用户与搜索的交互方式。今年，谷歌在这一基础上继续加码。

谷歌搜索负责人 Liz Reid 表示，自 AI 模式上线以来，其查询量每个季度都翻倍增长，目前月活跃用户已超过 10 亿。

搜索中的默认模型将升级为 Gemini 3.5 Flash。谷歌还推出了所谓的“智能搜索框”，Reid 称这是 25 年来搜索框的最大升级。新搜索框将更好地适应更长、更复杂的查询，并通过 AI 驱动的建议帮助用户组织问题，而不仅仅是传统的自动补全。

用户未来可以通过多种输入方式进行搜索，包括文本、图片、视频、文件，甚至是当前打开的 Chrome 标签页。新的搜索框将从周二起，在所有已支持 AI 模式的国家和语言中逐步上线。

谷歌还发布了一款名为“通用购物车”的新工具，被公司称为“真正智能的购物车”。该工具可跨不同商家和服务使用，用户在浏览谷歌搜索结果、与 Gemini 对话、观看 YouTube 视频或阅读 Gmail 邮件时，都可以将商品加入购物车。

通用购物车基于 Gemini 模型运行，一旦商品被添加，系统便会自动跟踪优惠和降价信息，提供价格历史，并在商品补货时向用户发出提醒。

通用购物车将于今年夏季率先在搜索和 Gemini 应用中上线，随后扩展至 YouTube 和 Gmail。

发表评论

登录后才可评论。去登录