Google 于 2026 年 3 月 26 日正式发布实时语音生成 AI 模型 Gemini 3.1 Flash Live。这一模型专为低延迟语音交互设计,能够在用户说话的同时实时理解并生成自然语音回复。同时,Google 也宣布将其应用于全新的搜索功能 Search Live,并启动全球推广,日本语版介绍页面也已上线。
专注实时语音对话的「Gemini 3.1 Flash Live」
Gemini 3.1 Flash Live 是一款可以实时处理语音输入、并以自然对话形式进行回应的 AI 模型。
它基于 Gemini 系列中强调高速响应的 Flash 系列模型 打造,重点针对语音流式处理、对话式助手等对延迟极为敏感的场景进行了优化。根据 Google 的介绍,该模型在设计上兼顾了 实时响应速度 与 推理能力,以满足实时语音 AI 的应用需求。
在实际性能评估中,Gemini 3.1 Flash Live 在多项与语音理解和推理相关的基准测试中都取得了较高分数。
从语音到函数调用的理解能力
在评估模型从语音输入中正确触发函数调用能力的基准测试 「ComplexFuncBench audio」 中,Gemini 3.1 Flash Live(Thinking High)取得了 90.8% 的准确率。
这一成绩明显优于上一代的 Gemini 2.5 Flash Native Audio 模型(71.5%),显示出在语音理解与结构化调用方面的显著提升。
语音推理能力基准测试
在衡量语音理解与推理能力的 「Big Bench Audio」 测试中,Gemini 3.1 Flash Live(Thinking High)取得 95.9% 的成绩。
这一分数超过了 Grok Voice Agent(92.9%) 和 GPT Realtime(83.3%) 等其他语音对话模型,表明其在复杂语音任务上的综合表现处于领先水平。

语音生成任务表现
在评估语音生成能力的 「Audio MultiChallenge」 基准中,Gemini 3.1 Flash Live(Thinking High)同样拿下了 36.1% 的最高分。
其表现优于 GPT-Realtime 1.5(34.7%) 以及 GPT-4o Audio 等模型,显示出在语音生成质量与任务完成度方面的优势。
接入 Google 搜索新功能「Search Live」,面向全球(含日本)推出
与 Gemini 3.1 Flash Live 一同公布的,还有 Google 搜索的新功能 「Search Live」。
在 Search Live 中,用户可以直接通过语音向 AI 提问,系统会以实时语音进行回答,并在对话过程中持续帮助用户探索信息。与传统依赖关键词输入的搜索方式不同,Search Live 更接近与助手对话式的搜索体验。
支撑这一实时语音搜索体验的核心基础模型,正是 Gemini 3.1 Flash Live。
Google 表示,将把 Search Live 作为一项面向全球的功能逐步推广,其中也包括日本在内的多个国家和地区。
@YouTube