Wired:谷歌 DeepMind 聘用 Hume AI 核心团队以强化 Gemini 语音能力

richlovec 1500_400 (1)
 

据《连线》(Wired)报道,谷歌旗下人工智能部门 DeepMind 已与语音 AI 初创公司 Hume AI 达成一项新的许可协议,并在此框架下聘用该公司的首席执行官及多名核心工程师。

报道援引消息称,Hume AI CEO Alan Cowen 以及约七名工程师将加入 DeepMind,参与提升谷歌 Gemini 模型的语音功能。交易的具体财务条款尚未披露。

根据相关报道,Hume AI 其余业务将继续独立运营,并向其他 AI 公司提供其语音与情绪识别技术。TechCrunch 表示已就此事联系谷歌和 Hume AI 以寻求确认。

此次团队收购被视为大型 AI 公司通过“收团队而非收公司”获取人才的又一案例。通过收购初创公司的核心团队,而不是直接并购公司本身,相关交易通常面临的监管审查压力较小。报道提到,谷歌去年已以类似方式吸纳了病毒式传播的 AI 编码初创公司 Windsurf 的 CEO 及其他顶级研究人员;OpenAI 近几个月也收购了包括 Covogo 和 Roi 在内的多个初创团队。美国联邦贸易委员会近期则表示,将对这类交易加强审查。

多项迹象显示,语音正成为 AI 领域的重要发力方向。Hume AI 的技术特点在于,其模型能够基于用户的声音信号识别情绪和心情。2024 年,该公司推出了一款具备情感智能的对话式 AI 产品,被称为“同理心语音界面”。据数据服务机构 PitchBook 统计,Hume AI 至今累计融资接近 8000 万美元,《连线》报道称该公司今年预计收入约为 1 亿美元。

除 Hume AI 外,多家科技公司也在加大语音相关投入。谷歌方面持续改进 Gemini Live 功能,使用户可以通过语音与聊天机器人进行交互。上月,谷歌发布了 Live API 的新原生音频模型,据称可提升模型处理复杂工作流的能力,相关更新已在 Gemini API 发布说明中列出。

OpenAI 也被报道正在准备对其音频模型进行全面升级,以配合其今年计划推出的首款以音频为核心的个人设备。该设备由 Jonny Ive 的公司 LoveFrom(报道中称 io)负责设计,近期泄露信息显示,该设备形态可能为耳塞。

Meta 去年通过收购初创公司 Play AI 加快了其在 AI 音频领域的布局。报道指出,Meta 与雷朋(Ray-Ban)合作推出的智能眼镜正越来越依赖语音和音频功能,不仅支持在嘈杂环境中帮助用户听清对话,还可实现免提控制通话、短信、音乐播放和拍照等操作。

在可穿戴设备场景中,语音输入被部分业内人士视为关键交互方式。投资人 Vanessa Larco 在接受 TechCrunch 采访时表示,语音是可穿戴设备“唯一可接受的输入方式”,并称此次收购将进一步推动语音应用需求的增长。

市场对语音能力的需求近期持续上升。本月早些时候,AI 语音生成初创公司 ElevenLabs 宣布,其年经常性收入已突破 3.3 亿美元,反映出语音相关产品在商业化方面的扩张速度。


分享:


发表评论

登录后才可评论。 去登录