Google 发布实时语音 AI「Gemini 3.1 Flash Live」：接入 Search Live 全球上线，日本版同步开放

AI 2026-03-28 Google, Gemini 3.1 Flash Live, Search Live, 语音AI, 实时对话 79 次浏览

Google 于 2026 年 3 月 26 日正式发布实时语音生成 AI 模型 Gemini 3.1 Flash Live。这一模型专为低延迟语音交互设计，能够在用户说话的同时实时理解并生成自然语音回复。同时，Google 也宣布将其应用于全新的搜索功能 Search Live，并启动全球推广，日本语版介绍页面也已上线。

专注实时语音对话的「Gemini 3.1 Flash Live」

Gemini 3.1 Flash Live 是一款可以实时处理语音输入、并以自然对话形式进行回应的 AI 模型。

它基于 Gemini 系列中强调高速响应的 Flash 系列模型 打造，重点针对语音流式处理、对话式助手等对延迟极为敏感的场景进行了优化。根据 Google 的介绍，该模型在设计上兼顾了 实时响应速度 与 推理能力，以满足实时语音 AI 的应用需求。

在实际性能评估中，Gemini 3.1 Flash Live 在多项与语音理解和推理相关的基准测试中都取得了较高分数。

从语音到函数调用的理解能力

gemini_flash_live__complexfuncbench__eval__light_Web.gif

在评估模型从语音输入中正确触发函数调用能力的基准测试 「ComplexFuncBench audio」 中，Gemini 3.1 Flash Live（Thinking High）取得了 90.8% 的准确率。

这一成绩明显优于上一代的 Gemini 2.5 Flash Native Audio 模型（71.5%），显示出在语音理解与结构化调用方面的显著提升。

语音推理能力基准测试

gemini_flash_live__audiomultichallenge__eval__light_Web.gif

在衡量语音理解与推理能力的 「Big Bench Audio」 测试中，Gemini 3.1 Flash Live（Thinking High）取得 95.9% 的成绩。

这一分数超过了 Grok Voice Agent（92.9%） 和 GPT Realtime（83.3%） 等其他语音对话模型，表明其在复杂语音任务上的综合表现处于领先水平。

语音生成任务表现

在评估语音生成能力的 「Audio MultiChallenge」 基准中，Gemini 3.1 Flash Live（Thinking High）同样拿下了 36.1% 的最高分。

其表现优于 GPT-Realtime 1.5（34.7%） 以及 GPT-4o Audio 等模型，显示出在语音生成质量与任务完成度方面的优势。

接入 Google 搜索新功能「Search Live」，面向全球（含日本）推出

与 Gemini 3.1 Flash Live 一同公布的，还有 Google 搜索的新功能 「Search Live」。

在 Search Live 中，用户可以直接通过语音向 AI 提问，系统会以实时语音进行回答，并在对话过程中持续帮助用户探索信息。与传统依赖关键词输入的搜索方式不同，Search Live 更接近与助手对话式的搜索体验。

支撑这一实时语音搜索体验的核心基础模型，正是 Gemini 3.1 Flash Live。

Google 表示，将把 Search Live 作为一项面向全球的功能逐步推广，其中也包括日本在内的多个国家和地区。

@YouTube

发表评论

登录后才可评论。去登录