2025年深度伪造技术加速演进 识别难度显著上升

richlovec 1500_400 (1)
 

2025年,深度伪造技术在生成质量和应用范围上均出现明显跃升。AI生成的人脸、声音以及全身表演能够高度模仿真实人物,其逼真程度远超多年前不少专家的预期,与此同时,被用于欺骗他人的案例也在增加。

在日常使用场景中,尤其是低分辨率的视频通话以及社交媒体平台上传播的各类短视频和音视频内容中,合成媒体的真实感已足以稳定欺骗非专业受众。从实际效果看,许多合成视频和音频与真实录制内容在视觉和听觉上几乎难以区分,一般公众甚至部分机构在缺乏专业工具的情况下也难以做出可靠判断。

网络安全公司 DeepStrike 的估算显示,在线深度伪造视频的数量在短时间内大幅攀升:从 2023 年约 50 万条增至 2025 年约 800 万条,年增幅接近 900%。除质量提升外,数量的爆发式增长正在改变网络媒体生态。

一名长期从事深度伪造及其他合成媒体研究的计算机科学家表示,从研究视角看,随着技术发展到可以驱动能够实时响应的合成表演者,2026 年的形势可能会更加严峻。目前,几乎任何人都可以制作深度伪造视频。

生成质量多维度提升

近期的技术升级主要体现在三个方面。

首先,视频真实感取得明显进展。新一代视频生成模型专门针对时间一致性进行设计,能够在连续画面中保持动作连贯、人物身份稳定以及帧间内容逻辑一致。模型将人物身份特征与动作信息分离,使同一套动作可以映射到不同人物身份,或让同一身份呈现多种动作表现。在这一基础上,生成的人脸在画面中更加稳定,不再频繁出现早期深度伪造中常见的闪烁、变形或眼部、下颌线结构异常等可供取证的明显破绽。

其次,声音克隆技术被认为已跨过“难以区分”的门槛。只需几秒钟的原始语音样本,即可生成在语调、节奏、重音、情感、停顿以及呼吸声等方面都高度自然的合成声音。报道指出,这类技术已被用于大规模欺诈,一些大型零售商称每天接到的 AI 生成诈骗电话超过 1000 个。此前可用于识别合成声音的感知特征在新一代系统中大多已不再明显。

第三,面向普通用户的工具大幅降低了使用门槛。OpenAI 的 Sora 2、谷歌的 Veo 3 以及多家初创企业推出的升级产品,使用户只需用自然语言描述一个构想,再由大型语言模型(如 OpenAI 的 ChatGPT 或谷歌的 Gemini)生成脚本,即可在数分钟内合成完整的视频和音频内容。部分 AI 代理工具还能自动化完成从构思到成片的全流程。大规模生成结构完整、具备故事线的深度伪造视频的能力已被广泛下放到普通用户层面。

研究者指出,合成内容数量的激增与高度逼真的虚拟形象结合,在信息传播速度远快于核查速度的媒体环境中带来严峻挑战。深度伪造已被用于散布错误信息、实施针对性骚扰以及金融诈骗等,并在公众尚未充分意识到风险前迅速扩散。

向实时合成方向演进

从技术演进路径看,研究人员认为,深度伪造正从追求静态画面真实感,转向强调时间和行为层面的连贯性,目标是实现实时或近实时的内容生成,而非仅输出预先渲染的视频片段。

未来系统中的“身份建模”正朝统一化方向发展,不仅捕捉一个人的外貌特征,还包括其在不同情境下的动作风格、声音特征和说话方式。研究者指出,这类系统生成的结果将不再只是“看起来像某个人”,而是“在一段时间内表现得像某个人”。

在此基础上,相关研究预计,技术将能够在视频通话中实时合成整个人物形象,出现可交互的 AI 驱动“演员”,其面部表情、声音和举止可即时响应对话提示;诈骗者也可能用可实时回应的虚拟形象替代固定的预录视频。

随着这些能力逐步成熟,合成媒体与真实人类生成媒体之间的感知差距将进一步缩小。研究者认为,有效防线将从依赖个人肉眼判断,转向依托基础设施层面的保护措施,例如通过加密签名标注内容来源的安全认证机制,以及在内容生产工具中采用“内容来源与真实性联盟”(C2PA)规范。同时,多模态取证工具也被视为重要手段,例如布法罗大学媒体取证实验室开发的 Deepfake-o-Meter 等。

研究者指出,在当前技术条件下,仅凭肉眼仔细观察画面像素已难以可靠识别深度伪造。

据介绍,相关观点来自布法罗大学计算机科学与工程教授、布法罗大学媒体取证实验室主任 Siwei Lyu 撰写的文章。该文最初发表在 The Conversation 网站,依据知识共享许可协议被转载。


分享:


发表评论

登录后才可评论。 去登录