从语音助手到诈骗工具：AI语音克隆在噪声环境下已胜过人声

科学 2026-04-26 语音克隆, 合成语音, 人工智能, 语音识别, 人机交互 31 次浏览

合成语音已经深度进入日常生活，从 Siri、Alexa 等数字助理，到自动电话推销和语音答录系统，都在依赖这类技术。随着生成式人工智能的快速发展，一种新的合成语音形式——语音克隆——开始兴起，只需几秒钟的录音就能高度还原某个人的声音。

近期发表在《美国声学学会杂志》上的一项研究，由伦敦大学学院和罗汉普顿大学的两位研究人员共同完成。他们对比评估了真实人声与语音克隆在不同环境下的可懂度，结果显示，在嘈杂背景下，语音克隆比人类语音更容易被听清和理解。

语音克隆与传统合成语音的主要差异在于所需的语音样本量。以 Siri 为代表的传统合成语音，需要配音演员在录音棚中录制数小时素材，才能生成自然流畅的语音系统。而语音克隆技术只需要大约 10 秒的语音片段，就能生成一个可用的声音模型，这极大扩展了可被克隆的声音数量和潜在应用场景。

研究人员 Patti Adank 和 Han Wang 长期关注人类如何感知模糊或受干扰的语音，因此对“机器能否逼真复制人声”这一问题格外感兴趣。

他们首先想弄清的一点是：普通人在日常听力条件下，究竟能多容易地理解语音克隆。他们原本推测，语音克隆只是对真实人声的粗糙模仿，听起来会更生硬、更难懂。

结果却完全相反。

“我一开始以为，因为大家不熟悉这些克隆声音，所以会更难理解，”Adank 表示，“但结果显示，它们的可懂度竟然高出 20%，这让我非常震惊。我们论文里只用了一小部分篇幅描述实验本身，其余大部分时间，我和合作者都在试图搞清楚：到底是什么让这些克隆语音更容易被理解。”

在最初的实验中，两位研究人员向志愿者播放真实人声和对应的语音克隆，并让他们对每种语音的可懂度进行评分。

当他们发现语音克隆在评分中始终占优后，又设计了多轮补充实验：

在所有这些条件下，语音克隆依然整体表现更好。

为了找出语音克隆在可懂度上占优的具体原因，研究团队对 100 多项声学特征进行了分析。但 Adank 认为，仅靠这些统计指标仍不足以完全解释现象。

因此，她计划与专门研究文本转语音系统的团队合作，对现有的开源语音克隆系统进行改造和深入拆解。

“接下来，我打算从合成器的内部机制入手，研究它们如何利用数字信号处理生成这些声音，并尝试在可控条件下重现这种‘更易理解’的效果，从而更好地理解这一现象，”Adank 说。

随着语音克隆技术在可懂度和易用性上的优势逐渐显现，它在语音助手、无障碍沟通、内容创作，甚至诈骗和伪造等灰色领域的影响，都将持续扩大，这也对监管和安全提出了新的挑战。

登录后才可评论。去登录