ElevenLabs CEO：语音正成为人工智能下一代主要交互界面

商业 2026-02-26 科技最前沿人工智能, 语音技术, 可穿戴设备, 科技公司融资, 隐私与数据安全 28 次浏览

在卡塔尔多哈举行的 Web Summit 上，ElevenLabs 联合创始人兼首席执行官 Mati Staniszewski 表示，语音正在成为人工智能领域“下一大主要交互界面”，人机互动方式正从以文本和屏幕为中心，转向以语音为主导。

Staniszewski 在接受 TechCrunch 采访时称，ElevenLabs 开发的语音模型近期已不再局限于模仿人类声音本身，包括情感和语调层面，而是开始与大型语言模型的推理能力协同工作。他认为，这种结合将改变人们与技术互动的方式。

他表示，未来几年内，“希望我们所有的手机都能回到口袋里，我们可以沉浸于周围的真实世界，语音将成为控制技术的机制”。

这一判断与公司最新一轮融资进展相呼应。ElevenLabs 本周完成 5 亿美元融资，投后估值达到 110 亿美元。语音被视为下一代交互入口的观点，正逐步在人工智能行业内部获得更多共识。

报道指出，OpenAI 和谷歌已将语音列为下一代模型的核心方向之一，而苹果则被认为通过收购 Q.ai 等公司，低调布局与语音相关的“始终在线”技术。随着人工智能系统进入可穿戴设备、汽车及其他新型硬件，交互方式正从点击屏幕转向语音，语音被视为人工智能下一阶段竞争的关键领域之一。

在同一场合，Iconiq Capital 普通合伙人 Seth Pierrepont 也表达了类似看法。他表示，屏幕在游戏和娱乐场景中仍然重要，但传统输入方式如键盘开始显得“过时”。

Pierrepont 认为，随着人工智能系统变得更具“代理性”，人机交互模式将随之调整。依托更完善的安全约束、更深入的系统集成以及更丰富的上下文信息，模型对用户明确提示的依赖有望减少。

Staniszewski 将这种“代理性”转变描述为当前正在发生的最大变化之一。他指出，未来的语音系统将更依赖持续记忆和不断累积的上下文信息，使交互过程更自然，用户所需付出的操作和表达成本更低。

他同时表示，这一演变也会影响语音模型的技术部署路径。目前高质量音频模型多运行在云端，但 ElevenLabs 正向云端与设备端相结合的混合架构推进，以适配包括耳机和其他可穿戴设备在内的新硬件形态，使语音从“按需调用的功能”转向更为持续的陪伴式存在。

在业务合作方面，ElevenLabs 已与 Meta 合作，将其语音技术应用于 Instagram 以及 Meta 的虚拟现实平台 Horizon Worlds 等产品。Staniszewski 称，随着语音驱动界面扩展到更多硬件形态，他也愿意在 Ray-Ban 智能眼镜项目上与 Meta 开展合作。

与此同时，语音技术在日常硬件中的持续嵌入，也引发外界对隐私和监控问题的担忧。随着语音系统更贴近用户日常生活，其将收集和存储多少个人数据成为关注焦点。报道提到，谷歌等公司此前已被指控在相关数据使用方面存在不当行为。

发表评论

登录后才可评论。去登录