从语音助手到诈骗工具:AI语音克隆在噪声环境下已胜过人声

合成语音已经深度进入日常生活,从 Siri、Alexa 等数字助理,到自动电话推销和语音答录系统,都在依赖这类技术。随着生成式人工智能的快速发展,一种新的合成语音形式——语音克隆——开始兴起,只需几秒钟的录音就能高度还原某个人的声音。

研究发现:克隆语音在噪声中胜过人声

近期发表在《美国声学学会杂志》上的一项研究,由伦敦大学学院和罗汉普顿大学的两位研究人员共同完成。他们对比评估了真实人声与语音克隆在不同环境下的可懂度,结果显示,在嘈杂背景下,语音克隆比人类语音更容易被听清和理解。

语音克隆与传统合成语音的主要差异在于所需的语音样本量。以 Siri 为代表的传统合成语音,需要配音演员在录音棚中录制数小时素材,才能生成自然流畅的语音系统。而语音克隆技术只需要大约 10 秒的语音片段,就能生成一个可用的声音模型,这极大扩展了可被克隆的声音数量和潜在应用场景。

研究人员 Patti Adank 和 Han Wang 长期关注人类如何感知模糊或受干扰的语音,因此对“机器能否逼真复制人声”这一问题格外感兴趣。

听众实验带来的意外结果

他们首先想弄清的一点是:普通人在日常听力条件下,究竟能多容易地理解语音克隆。他们原本推测,语音克隆只是对真实人声的粗糙模仿,听起来会更生硬、更难懂。

结果却完全相反。

“我一开始以为,因为大家不熟悉这些克隆声音,所以会更难理解,”Adank 表示,“但结果显示,它们的可懂度竟然高出 20%,这让我非常震惊。我们论文里只用了一小部分篇幅描述实验本身,其余大部分时间,我和合作者都在试图搞清楚:到底是什么让这些克隆语音更容易被理解。”

在最初的实验中,两位研究人员向志愿者播放真实人声和对应的语音克隆,并让他们对每种语音的可懂度进行评分。

当他们发现语音克隆在评分中始终占优后,又设计了多轮补充实验:

  • 邀请老年志愿者参与,以检验听力下降是否会改变结果;
  • 邀请美国志愿者参与(此前主要为英国志愿者),以观察口音差异是否影响理解;
  • 使用模拟人工耳蜗效果的滤波器,对语音信号进行处理,再比较两种语音的可懂度。

在所有这些条件下,语音克隆依然整体表现更好。

追踪语音克隆优势背后的原因

为了找出语音克隆在可懂度上占优的具体原因,研究团队对 100 多项声学特征进行了分析。但 Adank 认为,仅靠这些统计指标仍不足以完全解释现象。

因此,她计划与专门研究文本转语音系统的团队合作,对现有的开源语音克隆系统进行改造和深入拆解。

“接下来,我打算从合成器的内部机制入手,研究它们如何利用数字信号处理生成这些声音,并尝试在可控条件下重现这种‘更易理解’的效果,从而更好地理解这一现象,”Adank 说。

随着语音克隆技术在可懂度和易用性上的优势逐渐显现,它在语音助手、无障碍沟通、内容创作,甚至诈骗和伪造等灰色领域的影响,都将持续扩大,这也对监管和安全提出了新的挑战。


分享:


发表评论

登录后才可评论。 去登录