OpenZeppelin称OpenAI区块链安全基准EVMbench存在方法论缺陷与数据污染

区块链 2026-04-30 链上情绪区块链安全, 人工智能, OpenZeppelin, OpenAI, 智能合约 33 次浏览

区块链安全公司 OpenZeppelin 表示，在对 OpenAI 新推出的区块链安全人工智能基准测试 EVMbench 进行审计时，发现该基准在方法论和数据集质量方面存在多项问题，包括训练数据污染以及高严重性漏洞分类不当等。

EVMbench 于 2 月中旬由 OpenAI 与加密投资公司 Paradigm 合作推出，旨在评估不同人工智能模型在识别、修补及利用智能合约漏洞方面的能力。基准发布时，用于测试的是 AI 代理在理论上利用智能合约漏洞的能力，结果显示，Anthropic 的 Claude Open 4.6 排名第一，其次是 OpenAI 的 OC-GPT-5.2 和谷歌的 Gemini 3 Pro。

OpenZeppelin 在周一发布于社交平台 X 的帖子中表示，欢迎类似 EVMbench 的尝试，但已决定以其为 Aave、Lido、Uniswap 等去中心化金融协议提供安全审计时所采用的同等严格标准，对该基准进行审查。

在此次审计中，OpenZeppelin 指出两个主要问题：一是训练数据污染风险，二是多个高严重性漏洞的分类存在错误。

在数据污染方面，OpenZeppelin 强调，“AI 安全中最重要的能力是发现模型从未见过的新漏洞”。然而，该机构表示，在对 EVMbench 进行分析后认为，所有得分最高的 AI 代理“很可能在预训练阶段已接触过基准测试中的漏洞报告”。

根据 OpenZeppelin 的说法，EVMbench 在测试过程中切断了 AI 代理的互联网访问，以防其通过在线搜索直接获取答案。但该基准数据集来源于 2024 年至 2025 年中期间 120 次审计中精选的漏洞，而这些模型的知识训练截止时间通常设定在 2025 年中期。这意味着，相关漏洞报告在模型预训练阶段已可能被纳入训练语料，从而带来模型“记住”答案的风险。

OpenZeppelin 表示，这种情况“虽然不一定使模型能立即识别问题，但降低了测试质量”。在其看来，数据集规模有限进一步缩小了评估范围，使得上述污染问题的影响被放大。

除数据污染外，OpenZeppelin 还指出 EVMbench 数据集中存在“重大事实错误”。该机构称，在审查过程中发现，数据集中至少有四个被标记为高严重性的漏洞实际上不可被利用。

OpenZeppelin 表示，他们对这些案例进行了评估，认为相关漏洞的利用路径在技术上并不成立，因此不构成可实际利用的高风险问题。“这不是主观的严重性分歧，而是描述的漏洞利用方法根本无效。”不过，EVMbench 在评估 AI 代理是否能发现这些被其视为“错误漏洞”时，仍然按照原有标注对模型进行打分。

OpenZeppelin 在总结中重申，人工智能预计将在提升区块链和智能合约安全方面发挥重要作用，但同时强调，相关技术必须在正确的数据和严谨的基准之上进行开发和测试，才能充分发挥潜力。

该机构表示，“问题不在于人工智能是否会改变智能合约安全——它肯定会。问题在于我们用来构建和评估这些工具的数据和基准，是否达到了它们所保护合约的同等标准。”

发表评论

登录后才可评论。去登录