Google 于 2026 年 6 月 9 日(美国时间)发布了全新的语音模型「Gemini 3.5 Live Translate」,支持几乎实时的语音对语音翻译。该模型可自动识别 70 多种语言,并在保留说话者语气、语速等特征的前提下,在几秒钟延迟内生成另一种语言的翻译语音。
在面向普通用户的产品中,Gemini 3.5 Live Translate 将集成进 Android 和 iOS 版的 Google 翻译 App。面向开发者,该模型通过 Gemini Live API 和 Google AI Studio 以公测形式开放;面向企业客户,则将作为 Google Meet 的新功能,以私测形式率先提供。
无需等对方说完,边说边翻译、紧跟对话节奏
Gemini 3.5 Live Translate 采用流式处理方式,一边接收语音输入,一边持续生成翻译语音。传统的“轮流发言式”翻译系统通常要等说话者一句话或一段话结束后再给出翻译,而该模型则会尽量紧跟对话进程,在发声后的数秒内就输出另一种语言的语音。
@YouTube
Google 表示,在设计该模型时,会在“等待更多上下文以提高翻译质量”和“尽快跟上说话者节奏”之间做平衡,以尽量接近自然对话体验。模型会模仿说话者的语调、节奏和音高等特征。不过,它并不是对原始声音进行一比一还原,而是生成一种在说话风格上相似、但并非本人声音的翻译语音。
登陆 Google 翻译 App、Google Meet 与 API
对普通用户而言,Gemini 3.5 Live Translate 首先会在 Google 翻译 App 中上线。用户连接耳机并开启实时翻译功能后,就可以听到带有说话者语气特征的翻译语音,支持 70 多种语言。
在 Android 端,Google 还将推出全新的「listening mode(聆听模式)」。用户可以像打电话一样把手机贴在耳边,翻译后的语音会从听筒播放。该模式适用于没有耳机,或不希望让周围人听到翻译内容的场景。

在 Google Meet 中,现有的语音翻译功能将升级为基于 Gemini 3.5 Live Translate 的新版本。支持语言将从此前的 5 种扩展到 70 多种,并可在超过 2000 组语言组合之间直接互译,而无需先转换成英语。Google 计划从本月起,先向部分 Google Workspace 商业客户提供私测版本,并在年内逐步扩大覆盖范围。
面向开发者,Google 通过 Gemini Live API 和 Google AI Studio 提供该模型的公测访问能力。根据 Google AI for Developers 的说明,模型代号为「gemini-3.5-live-translate-preview」,可接收语音输入,并输出翻译后的语音以及对应的文字转写结果。
作为语音翻译基础设施,拓展多场景应用
在 Gemini Live API 的设想中,该模型可以作为语音翻译基础设施,应用于多语言通话、在线会议、课堂教学、直播场景以及多语言客服等。Google 还透露,出行平台 Grab 已开始测试该模型,用于在司机与游客之间提供几乎实时的多语言沟通支持。
为便于识别 AI 生成内容,Gemini 3.5 Live Translate 输出的语音中嵌入了电子水印「SynthID」,可用于检测音频是否由 AI 生成。根据 Google DeepMind 发布的模型卡信息,该模型基于 Gemini 3 Pro 构建,并从翻译质量、延迟表现以及语音自然度等维度进行评估。
同时,Google 也提示了当前模型的一些限制。例如,在长时间静音之后,生成语音的音色可能会发生变化;在多人快速对话的场景中,声音的一致性可能难以完全保持;对于带有强烈口音的非母语发音、相近语种之间的区分,或是突然切换语言的情况,模型的语言识别也可能出现困难。
总体来看,Gemini 3.5 Live Translate 不仅是 Google 翻译的一项新功能,还将作为底层语音翻译平台,扩展到 Meet 以及各类基于 API 的应用中。随着“听懂—翻译—再输出为另一种语言语音”这一整套流程的延迟不断降低,多语言沟通有望从个人使用场景进一步延伸到企业系统和各类专业业务场景。
