Photon框架：在艾级规模上自动发现AI漏洞

科学 2026-04-04 AI安全, 漏洞检测, 超级计算, 橡树岭国家实验室 2 次浏览

橡树岭国家实验室人工智能安全研究中心（CAISER）正系统性地揭示AI系统中的安全弱点。虽然AI模型在经济发展、人道援助和国家安全等方面潜力巨大，但其被恶意利用的风险也在不断上升，而识别和刻画这些漏洞往往需要大量专业知识和人力投入。

为提升AI漏洞发现的效率和覆盖度，CAISER研究人员基于现有技术开发出Photon框架，用于在艾级计算规模上快速检测AI模型中的安全缺陷。该框架旨在帮助确保AI系统在能源、医疗、金融以及国家安全等关键领域部署时，能够在面对攻击时保持安全性和稳健性。

研究团队通过重新构思橡树岭国家实验室已有的DeepHyper框架设计了Photon。DeepHyper最初用于训练大规模神经网络并搜索最优网络参数。研究人员将这一能力“反向使用”：Photon不再寻找最佳模型配置，而是被训练为寻找最有效的攻击参数，用于识别和放大模型中的恶意利用路径，从而帮助模型开发者理解并防御这些攻击。

CAISER主任Edmon Begoli表示：“这听起来可能有点‘投机取巧’，但效果非常显著。Photon加速了设计和开发过程，并复用最有效的漏洞探索和利用方法。”

在AI领域，“探索与利用”是一个基础概念，用来描述在发现新可能性（探索）与充分利用已有知识（利用）之间的平衡。Photon正是围绕这一思想构建的。

在实际运行中，Photon首先从公开科学文献中收集已知攻击方法，并将这些攻击应用到目标模型上。随后，它会根据模型暴露出的弱点对这些攻击进行优化。在不断利用已发现漏洞的同时，Photon还会持续探索模型的其他潜在薄弱环节，并尝试对新发现的漏洞进行利用。这个“探索—利用”循环会一直进行，直到模型性能不再出现进一步下降。

依托DeepHyper框架，Photon可以通过异步、分布式的方式自动测试和搜索大规模超参数空间。简单来说，Photon能够在多台计算机上同时尝试大量不同的攻击配置，而不需要一个集中式的单一管理代理来协调所有优化过程。

在这种分布式架构下，每个攻击代理都会与其他代理共享发现结果。如果某个攻击策略表现最佳，其他代理会实时学习并调整自身攻击方式，从而最大化对模型漏洞的利用效率。

艾级超级计算机支撑大规模AI漏洞测试

Photon的高效攻击测试能力离不开橡树岭国家实验室的Frontier艾级超级计算机。Photon可以在不同计算节点上并行运行多种攻击实验，这种并行规模使其区别于目前已知的其他AI漏洞测试方法。

在Frontier的单个节点上，Photon每小时可以执行约6万次“越狱”提示测试——这些提示被专门设计用来诱导AI系统突破原有安全限制。相比之下，人类“红队”（模拟攻击者的安全测试团队）完成同等规模的测试可能需要数年时间。而Photon不仅能并行执行大量越狱尝试，还能在过程中协调和整合这些攻击活动，持续追踪最有效的攻击路径。

通过实时调整和演化攻击策略，Photon模拟了自然界中高效的搜索模式——类似蚂蚁在环境中快速聚集到高产资源的行为——从而确保每一次探索都尽可能转化为有价值的安全情报。

这种方法显著减少了传统红队越狱测试中的辅助工作和流程瓶颈，并在不牺牲计算效率的前提下实现大规模扩展。在Frontier的1920个GPU上，Photon能够保持超过95%的资源利用率。

橡树岭国家实验室稳健AI工程师Jack Hutchins指出：“在如此大规模的环境下运行时，尽可能用满所有可用计算资源是非常困难的。由于规模巨大，要完全消除资源空闲几乎不可能。即便如此，能维持95%左右的利用率已经非常难得。”

DeepHyper的探索策略会优先尝试潜在影响较大的参数组合，同时保证对整个参数空间的覆盖。因此，Photon既能发现明显的安全缺陷，也能捕捉到更隐蔽的漏洞，从而更全面地评估模型在对抗场景下的表现。

Hutchins表示：“我们的目标是找到高效的越狱方式。越快定位到影响最大的参数，我们就能越快找到真正有效的越狱路径。”

为关键任务AI系统提供快速修复路径

在AI深度融入全球关键业务的背景下，确保这些系统的可靠性、稳健性和安全性比以往任何时候都更为关键。Photon不仅能够揭示AI模型中潜在的安全漏洞，还为快速修补这些问题提供了技术路径，从而维护关键任务系统的完整性和性能。

Begoli总结道：“Photon代表了一种新的AI安全思路。通过协调的大规模实验，我们可以比过去更高效地发现隐藏的漏洞。这项技术有助于确保AI技术在各行各业持续发挥创新价值的同时，不会引入新的安全风险或隐患。”

发表评论

登录后才可评论。去登录