OpenAI周四宣布,在其Realtime API中新增多项语音智能功能,面向开发者提供实时对话、转录和翻译等能力,用于构建语音交互类应用。
推出新一代语音模型 GPT‑Realtime‑2
OpenAI表示,新发布的 GPT‑Realtime‑2 是一款用于生成逼真语音并与用户进行对话的模型。与此前的 GPT‑Realtime‑1.5 相比,该模型被描述为具备“GPT‑5 级别推理能力”,旨在处理更复杂的用户请求。
公司称,通过这一模型,应用可以在语音环境中完成更复杂的任务,而不仅限于简单的问答式交互。
实时翻译模型 GPT‑Realtime‑Translate
OpenAI同时发布了 GPT‑Realtime‑Translate,用于提供实时语音翻译服务。根据公司介绍,该模型设计目标是能够“跟上”用户的对话节奏。
该功能目前支持 70 多种输入语言(可理解的语言)和 13 种输出语言(用于向说话者播报的语言),以满足多语种交流场景下的实时翻译需求。

实时转录功能 GPT‑Realtime‑Whisper
在转录方面,OpenAI推出了 GPT‑Realtime‑Whisper,为用户提供实时语音转文本能力。公司表示,该功能可以在对话进行的同时即时捕捉并转写内容,用于需要即时记录语音信息的场景。
官方表述与应用场景
OpenAI在介绍上述产品时表示,这些模型“将实时音频从简单的问答式交互,提升到能够真正完成工作的语音界面:倾听、推理、翻译、转录,并在对话进行中采取行动”。
在应用方向上,公司称,扩展客户服务能力的企业是这些更新的主要目标用户之一。同时,OpenAI指出,新功能也可用于教育、媒体、活动以及创作者平台等多种场景。
风险防护与计费方式
针对潜在滥用风险,OpenAI表示,已在系统中设置防护措施,以防这些工具被用于制造垃圾信息、实施欺诈或其他形式的网络滥用。公司称,系统内嵌了特定触发机制,“如果检测到对话违反我们的有害内容指南,系统可以中止对话”。
OpenAI介绍,所有新语音模型均通过 Realtime API 提供。计费方式方面,GPT‑Realtime‑Translate 和 GPT‑Realtime‑Whisper 按使用分钟数计费,GPT‑Realtime‑2 则按令牌消耗计费。
