OpenAI在API中上线新一代语音智能功能

商业 2026-06-09 科技最前沿 OpenAI, 语音技术, API, 实时翻译, 人工智能应用 8 次浏览

OpenAI周四宣布，在其Realtime API中新增多项语音智能功能，面向开发者提供实时对话、转录和翻译等能力，用于构建语音交互类应用。

OpenAI表示，新发布的 GPT‑Realtime‑2 是一款用于生成逼真语音并与用户进行对话的模型。与此前的 GPT‑Realtime‑1.5 相比，该模型被描述为具备“GPT‑5 级别推理能力”，旨在处理更复杂的用户请求。

公司称，通过这一模型，应用可以在语音环境中完成更复杂的任务，而不仅限于简单的问答式交互。

OpenAI同时发布了 GPT‑Realtime‑Translate，用于提供实时语音翻译服务。根据公司介绍，该模型设计目标是能够“跟上”用户的对话节奏。

该功能目前支持 70 多种输入语言（可理解的语言）和 13 种输出语言（用于向说话者播报的语言），以满足多语种交流场景下的实时翻译需求。

在转录方面，OpenAI推出了 GPT‑Realtime‑Whisper，为用户提供实时语音转文本能力。公司表示，该功能可以在对话进行的同时即时捕捉并转写内容，用于需要即时记录语音信息的场景。

OpenAI在介绍上述产品时表示，这些模型“将实时音频从简单的问答式交互，提升到能够真正完成工作的语音界面：倾听、推理、翻译、转录，并在对话进行中采取行动”。

在应用方向上，公司称，扩展客户服务能力的企业是这些更新的主要目标用户之一。同时，OpenAI指出，新功能也可用于教育、媒体、活动以及创作者平台等多种场景。

针对潜在滥用风险，OpenAI表示，已在系统中设置防护措施，以防这些工具被用于制造垃圾信息、实施欺诈或其他形式的网络滥用。公司称，系统内嵌了特定触发机制，“如果检测到对话违反我们的有害内容指南，系统可以中止对话”。

OpenAI介绍，所有新语音模型均通过 Realtime API 提供。计费方式方面，GPT‑Realtime‑Translate 和 GPT‑Realtime‑Whisper 按使用分钟数计费，GPT‑Realtime‑2 则按令牌消耗计费。

登录后才可评论。去登录