ElevenLabs CEO:语音正成为人工智能下一代主要交互界面

richlovec 1500_400 (1)
 

在卡塔尔多哈举行的 Web Summit 上,ElevenLabs 联合创始人兼首席执行官 Mati Staniszewski 表示,语音正在成为人工智能领域“下一大主要交互界面”,人机互动方式正从以文本和屏幕为中心,转向以语音为主导。

Staniszewski 在接受 TechCrunch 采访时称,ElevenLabs 开发的语音模型近期已不再局限于模仿人类声音本身,包括情感和语调层面,而是开始与大型语言模型的推理能力协同工作。他认为,这种结合将改变人们与技术互动的方式。

他表示,未来几年内,“希望我们所有的手机都能回到口袋里,我们可以沉浸于周围的真实世界,语音将成为控制技术的机制”。

这一判断与公司最新一轮融资进展相呼应。ElevenLabs 本周完成 5 亿美元融资,投后估值达到 110 亿美元。语音被视为下一代交互入口的观点,正逐步在人工智能行业内部获得更多共识。

报道指出,OpenAI 和谷歌已将语音列为下一代模型的核心方向之一,而苹果则被认为通过收购 Q.ai 等公司,低调布局与语音相关的“始终在线”技术。随着人工智能系统进入可穿戴设备、汽车及其他新型硬件,交互方式正从点击屏幕转向语音,语音被视为人工智能下一阶段竞争的关键领域之一。

在同一场合,Iconiq Capital 普通合伙人 Seth Pierrepont 也表达了类似看法。他表示,屏幕在游戏和娱乐场景中仍然重要,但传统输入方式如键盘开始显得“过时”。

Pierrepont 认为,随着人工智能系统变得更具“代理性”,人机交互模式将随之调整。依托更完善的安全约束、更深入的系统集成以及更丰富的上下文信息,模型对用户明确提示的依赖有望减少。

Staniszewski 将这种“代理性”转变描述为当前正在发生的最大变化之一。他指出,未来的语音系统将更依赖持续记忆和不断累积的上下文信息,使交互过程更自然,用户所需付出的操作和表达成本更低。

他同时表示,这一演变也会影响语音模型的技术部署路径。目前高质量音频模型多运行在云端,但 ElevenLabs 正向云端与设备端相结合的混合架构推进,以适配包括耳机和其他可穿戴设备在内的新硬件形态,使语音从“按需调用的功能”转向更为持续的陪伴式存在。

在业务合作方面,ElevenLabs 已与 Meta 合作,将其语音技术应用于 Instagram 以及 Meta 的虚拟现实平台 Horizon Worlds 等产品。Staniszewski 称,随着语音驱动界面扩展到更多硬件形态,他也愿意在 Ray-Ban 智能眼镜项目上与 Meta 开展合作。

与此同时,语音技术在日常硬件中的持续嵌入,也引发外界对隐私和监控问题的担忧。随着语音系统更贴近用户日常生活,其将收集和存储多少个人数据成为关注焦点。报道提到,谷歌等公司此前已被指控在相关数据使用方面存在不当行为。


分享:


发表评论

登录后才可评论。 去登录