OpenAI正加大在音频人工智能领域的投入,相关动作已超出为ChatGPT提供更自然语音的范畴。
据《The Information》近日报道,OpenAI在过去两个月中整合了多支工程、产品和研究团队,对其音频模型进行全面改造,并着手规划一款以音频交互为核心的个人设备。报道援引知情人士称,该设备预计将在约一年后推出。
这一动向被视为与行业整体趋势相呼应:屏幕在交互中的主导地位正在被削弱,音频正被更多公司视为下一代人机界面的关键入口。
科技巨头加速押注音频界面
在消费端,语音助手已通过智能音箱进入美国超过三分之一的家庭。多家大型科技公司近期也围绕音频界面推出新功能和产品:
- Meta为其Ray-Ban智能眼镜新增一项功能,利用五麦克风阵列帮助用户在嘈杂环境中更清晰地听到对话,使眼镜在一定程度上成为定向听音设备;
- 谷歌自今年6月起测试“音频概览”(audio overview)功能,将搜索结果转化为对话式语音摘要;
- 特斯拉则把xAI的聊天机器人Grok集成进车载系统,通过自然语言对话处理从导航到空调控制等多项车内功能。
业内人士认为,从家庭、汽车到可穿戴设备,音频正在被嵌入不同场景,逐步演变为通用控制界面。
初创公司探索多样化形态
除大型科技公司外,多家初创企业也在围绕“无屏”或“弱屏”设备进行尝试,路径各异、结果不一。
报道提到,Humane AI Pin的制造商在其无屏可穿戴设备成为市场警示案例之前,已投入数亿美元资金。另一款名为Friend AI吊坠的产品,宣称可记录佩戴者生活并提供陪伴功能,但也引发了隐私和存在主义层面的担忧。

同时,至少有两家公司——包括Sandbar以及由Pebble创始人Eric Migicovsky领导的一家公司——正在开发AI戒指,计划在2026年前后推出,目标是让用户可以通过对着手指说话实现交互。
尽管产品形态各不相同,这些项目普遍基于同一判断:音频将成为未来的主要交互界面,而家庭、车辆乃至人体本身都在被重新定义为可被语音驱动的控制空间。
OpenAI新音频模型与设备设想
据《The Information》报道,OpenAI计划在2026年初推出新一代音频模型。知情人士称,该模型的目标是实现更自然的语音表现,并在对话节奏上更接近真人:
- 能够像真实对话伙伴一样处理打断;
- 可以在用户说话的同时发声,而非等待对方完全说完后再回应。
报道还称,OpenAI正在设想一系列围绕该音频模型的硬件设备,可能包括眼镜或无屏智能音箱等形态。这类设备被描述为更接近“伴侣”而非传统意义上的工具,但具体产品形态和功能尚未公开。
Jony Ive加入后强化“音频优先”方向
《The Information》指出,OpenAI在硬件方向上的推进,与前苹果首席设计官Jony Ive的加入有关。今年5月,OpenAI以65亿美元收购Ive创立的公司LoveFrom旗下的io业务,Ive随之加入OpenAI的硬件团队。
据报道,Ive在内部将“减少设备成瘾”列为优先事项之一,并将以音频为先的产品设计视为纠正以往消费电子产品设计问题的一种机会。这一思路被认为与OpenAI当前在音频和硬件上的布局方向相契合。
目前,OpenAI方面尚未就上述报道细节作出公开评论。
