Google 发布实时语音 AI「Gemini 3.1 Flash Live」:接入 Search Live 全球上线,日本版同步开放

Google 于 2026 年 3 月 26 日正式发布实时语音生成 AI 模型 Gemini 3.1 Flash Live。这一模型专为低延迟语音交互设计,能够在用户说话的同时实时理解并生成自然语音回复。同时,Google 也宣布将其应用于全新的搜索功能 Search Live,并启动全球推广,日本语版介绍页面也已上线。

专注实时语音对话的「Gemini 3.1 Flash Live」

Gemini 3.1 Flash Live 是一款可以实时处理语音输入、并以自然对话形式进行回应的 AI 模型。

它基于 Gemini 系列中强调高速响应的 Flash 系列模型 打造,重点针对语音流式处理、对话式助手等对延迟极为敏感的场景进行了优化。根据 Google 的介绍,该模型在设计上兼顾了 实时响应速度推理能力,以满足实时语音 AI 的应用需求。

在实际性能评估中,Gemini 3.1 Flash Live 在多项与语音理解和推理相关的基准测试中都取得了较高分数。

从语音到函数调用的理解能力

gemini_flash_live__complexfuncbench__eval__light_Web.gif

在评估模型从语音输入中正确触发函数调用能力的基准测试 「ComplexFuncBench audio」 中,Gemini 3.1 Flash Live(Thinking High)取得了 90.8% 的准确率

这一成绩明显优于上一代的 Gemini 2.5 Flash Native Audio 模型(71.5%),显示出在语音理解与结构化调用方面的显著提升。

语音推理能力基准测试

gemini_flash_live__audiomultichallenge__eval__light_Web.gif

在衡量语音理解与推理能力的 「Big Bench Audio」 测试中,Gemini 3.1 Flash Live(Thinking High)取得 95.9% 的成绩。

这一分数超过了 Grok Voice Agent(92.9%)GPT Realtime(83.3%) 等其他语音对话模型,表明其在复杂语音任务上的综合表现处于领先水平。

语音生成任务表现

gemini_flash_live__bigbenchaudio__eval__light_Web.gif

在评估语音生成能力的 「Audio MultiChallenge」 基准中,Gemini 3.1 Flash Live(Thinking High)同样拿下了 36.1% 的最高分

其表现优于 GPT-Realtime 1.5(34.7%) 以及 GPT-4o Audio 等模型,显示出在语音生成质量与任务完成度方面的优势。

接入 Google 搜索新功能「Search Live」,面向全球(含日本)推出

与 Gemini 3.1 Flash Live 一同公布的,还有 Google 搜索的新功能 「Search Live」

在 Search Live 中,用户可以直接通过语音向 AI 提问,系统会以实时语音进行回答,并在对话过程中持续帮助用户探索信息。与传统依赖关键词输入的搜索方式不同,Search Live 更接近与助手对话式的搜索体验。

支撑这一实时语音搜索体验的核心基础模型,正是 Gemini 3.1 Flash Live

Google 表示,将把 Search Live 作为一项面向全球的功能逐步推广,其中也包括日本在内的多个国家和地区。

@YouTube


分享:


发表评论

登录后才可评论。 去登录