据《连线》(Wired)报道,谷歌旗下人工智能部门 DeepMind 已与语音 AI 初创公司 Hume AI 达成一项新的许可协议,并在此框架下聘用该公司的首席执行官及多名核心工程师。
报道援引消息称,Hume AI CEO Alan Cowen 以及约七名工程师将加入 DeepMind,参与提升谷歌 Gemini 模型的语音功能。交易的具体财务条款尚未披露。
根据相关报道,Hume AI 其余业务将继续独立运营,并向其他 AI 公司提供其语音与情绪识别技术。TechCrunch 表示已就此事联系谷歌和 Hume AI 以寻求确认。
此次团队收购被视为大型 AI 公司通过“收团队而非收公司”获取人才的又一案例。通过收购初创公司的核心团队,而不是直接并购公司本身,相关交易通常面临的监管审查压力较小。报道提到,谷歌去年已以类似方式吸纳了病毒式传播的 AI 编码初创公司 Windsurf 的 CEO 及其他顶级研究人员;OpenAI 近几个月也收购了包括 Covogo 和 Roi 在内的多个初创团队。美国联邦贸易委员会近期则表示,将对这类交易加强审查。
多项迹象显示,语音正成为 AI 领域的重要发力方向。Hume AI 的技术特点在于,其模型能够基于用户的声音信号识别情绪和心情。2024 年,该公司推出了一款具备情感智能的对话式 AI 产品,被称为“同理心语音界面”。据数据服务机构 PitchBook 统计,Hume AI 至今累计融资接近 8000 万美元,《连线》报道称该公司今年预计收入约为 1 亿美元。

除 Hume AI 外,多家科技公司也在加大语音相关投入。谷歌方面持续改进 Gemini Live 功能,使用户可以通过语音与聊天机器人进行交互。上月,谷歌发布了 Live API 的新原生音频模型,据称可提升模型处理复杂工作流的能力,相关更新已在 Gemini API 发布说明中列出。
OpenAI 也被报道正在准备对其音频模型进行全面升级,以配合其今年计划推出的首款以音频为核心的个人设备。该设备由 Jonny Ive 的公司 LoveFrom(报道中称 io)负责设计,近期泄露信息显示,该设备形态可能为耳塞。
Meta 去年通过收购初创公司 Play AI 加快了其在 AI 音频领域的布局。报道指出,Meta 与雷朋(Ray-Ban)合作推出的智能眼镜正越来越依赖语音和音频功能,不仅支持在嘈杂环境中帮助用户听清对话,还可实现免提控制通话、短信、音乐播放和拍照等操作。
在可穿戴设备场景中,语音输入被部分业内人士视为关键交互方式。投资人 Vanessa Larco 在接受 TechCrunch 采访时表示,语音是可穿戴设备“唯一可接受的输入方式”,并称此次收购将进一步推动语音应用需求的增长。
市场对语音能力的需求近期持续上升。本月早些时候,AI 语音生成初创公司 ElevenLabs 宣布,其年经常性收入已突破 3.3 亿美元,反映出语音相关产品在商业化方面的扩张速度。
