OpenZeppelin称OpenAI区块链安全基准EVMbench存在方法论缺陷与数据污染

区块链安全公司 OpenZeppelin 表示,在对 OpenAI 新推出的区块链安全人工智能基准测试 EVMbench 进行审计时,发现该基准在方法论和数据集质量方面存在多项问题,包括训练数据污染以及高严重性漏洞分类不当等。

EVMbench 于 2 月中旬由 OpenAI 与加密投资公司 Paradigm 合作推出,旨在评估不同人工智能模型在识别、修补及利用智能合约漏洞方面的能力。基准发布时,用于测试的是 AI 代理在理论上利用智能合约漏洞的能力,结果显示,Anthropic 的 Claude Open 4.6 排名第一,其次是 OpenAI 的 OC-GPT-5.2 和谷歌的 Gemini 3 Pro。

OpenZeppelin 在周一发布于社交平台 X 的帖子中表示,欢迎类似 EVMbench 的尝试,但已决定以其为 Aave、Lido、Uniswap 等去中心化金融协议提供安全审计时所采用的同等严格标准,对该基准进行审查。

在此次审计中,OpenZeppelin 指出两个主要问题:一是训练数据污染风险,二是多个高严重性漏洞的分类存在错误。

在数据污染方面,OpenZeppelin 强调,“AI 安全中最重要的能力是发现模型从未见过的新漏洞”。然而,该机构表示,在对 EVMbench 进行分析后认为,所有得分最高的 AI 代理“很可能在预训练阶段已接触过基准测试中的漏洞报告”。

根据 OpenZeppelin 的说法,EVMbench 在测试过程中切断了 AI 代理的互联网访问,以防其通过在线搜索直接获取答案。但该基准数据集来源于 2024 年至 2025 年中期间 120 次审计中精选的漏洞,而这些模型的知识训练截止时间通常设定在 2025 年中期。这意味着,相关漏洞报告在模型预训练阶段已可能被纳入训练语料,从而带来模型“记住”答案的风险。

OpenZeppelin 表示,这种情况“虽然不一定使模型能立即识别问题,但降低了测试质量”。在其看来,数据集规模有限进一步缩小了评估范围,使得上述污染问题的影响被放大。

除数据污染外,OpenZeppelin 还指出 EVMbench 数据集中存在“重大事实错误”。该机构称,在审查过程中发现,数据集中至少有四个被标记为高严重性的漏洞实际上不可被利用。

OpenZeppelin 表示,他们对这些案例进行了评估,认为相关漏洞的利用路径在技术上并不成立,因此不构成可实际利用的高风险问题。“这不是主观的严重性分歧,而是描述的漏洞利用方法根本无效。”不过,EVMbench 在评估 AI 代理是否能发现这些被其视为“错误漏洞”时,仍然按照原有标注对模型进行打分。

OpenZeppelin 在总结中重申,人工智能预计将在提升区块链和智能合约安全方面发挥重要作用,但同时强调,相关技术必须在正确的数据和严谨的基准之上进行开发和测试,才能充分发挥潜力。

该机构表示,“问题不在于人工智能是否会改变智能合约安全——它肯定会。问题在于我们用来构建和评估这些工具的数据和基准,是否达到了它们所保护合约的同等标准。”


分享:


发表评论

登录后才可评论。 去登录