ARC奖基金会发布新一代AI基准测试 ARC-AGI-3 聚焦“流动智能”

商业 2026-05-11 商业现场人工智能, 基准测试, ARC奖基金会, OpenAI, AGI 11 次浏览

由人工智能研究员弗朗索瓦·肖莱（François Chollet）与Zapier联合创始人迈克·努普（Mike Knoop）共同创立的ARC奖基金会本周二发布新一代基准测试ARC-AGI-3。该测试被设计用于评估AI代理在陌生环境中的推理与学习能力，而非对既有数据的记忆与回忆。

重新定义“智能”测量方式

肖莱长期批评业界主流基准测试“奖励记忆而非智能”，认为现有评估更偏向考察模型对海量训练数据的记忆能力，而不是在新情境下学习新技能、解决新问题的能力。他表示，真正的智能在于“理解你从未见过的新事物、新任务的效率”，而不是通过“存储一张包含所有所需操作的查找表”来完成任务。

ARC-AGI-3延续这一思路，被基金会描述为目前最清晰衡量当今AI代理与人类智能差距的工具之一。该测试包含一千多个简单、类似电子游戏的场景，重点考察即时推理能力。测试中，AI代理在没有任何事先说明的情况下，需要自行理解游戏环境及其规则，并据此制定多步骤策略以达成目标。完成目标所用步骤越少、路径越高效，得分越高。

ARC奖基金会设立了最高100万美元的奖金池，用于奖励在该基准上取得突出成绩的团队。与此前的ARC测试一样，人类参与者通常可以相对轻松地完成这些任务，而许多现有AI系统在同类任务上的表现仍然有限。

与AGI讨论的关联

在业内流行的一种定义中，人工通用智能（AGI）被认为需要能够完成“人类执行的大多数具有经济价值的工作”。这类工作通常要求系统在陌生环境中处理未知情境，并能从以往经验中抽象出规律，推广到未被明确训练解决的新问题。

ARC-AGI-3的设计者认为，在这一基准上取得高分，可能构成AGI能力的某种证据。Laude研究所研究员安迪·康温斯基（Andy Konwinski）表示，他看重这一基准在当前评估体系中的差异性：一方面是测量AGI能力的尝试，另一方面是大型实验室普遍采用、每周追逐“0.5%性能提升”的标准基准套件。他所在的研究所通过Slingshots项目向ARC奖捐赠了2.5万美元。

ARC基准的起源与早期结果

首个ARC测试于2019年发布。当时，现今主流AI聊天机器人的基础——变换器（Transformer）架构问世仅两年，模型刚开始能够生成较为连贯的回答，但尚不具备实时推理能力，在ARC-1上的表现普遍不佳，这也限制了该基准在业界的早期影响力。

肖莱当时注意到，部分被描述为“博士水平”智能的系统，在ARC这类简单谜题上却频频失手。他认为，当最先进的AI系统在儿童可以轻松完成的任务上失败时，这是评估体系存在重大缺口的信号。

ARC-AGI-1的早期结果也触及当时主流技术路线的局限。努普表示，他认为ARC是“世界上最重要且尚未被攻克的基准”，因为它是“唯一明确反驳2023和2024年湾区极端推崇的规模化故事的证据”。当时，多家AI实验室坚信，通过持续扩大模型规模、训练数据和计算资源即可线性提升智能水平，最终实现AGI。然而，这些系统在推理时依然依赖静态的预训练权重，缺乏额外的推理机制。

从“规模化”到“推理层”

自2024年起，随着业界开始关注能够执行现实工作任务的自主AI代理，这一局面出现变化。肖莱表示，深度学习模型已经积累了足够多的知识，可以在此基础上“构建推理层”。

2024年9月，OpenAI发布研究预览版推理模型o1，该模型能够将复杂任务拆解为更小的子任务，并评估多条可能的解决路径。肖莱认为，这类模型“终于开始尝试解决深度学习范式中缺失的流动智能问题”。

随着研究重心转向推理能力，ARC基准的参考价值在部分实验室中上升。根据公开信息，o1模型在ARC-AGI-1上的得分为21%，而其前身GPT-4o得分为9%。

2025年1月，OpenAI发布新一代推理模型o3，其在ARC-AGI-1上的得分根据计算量不同在75%至87%之间，已接近人类水平。这一进展引发了关于ARC基准是否即将“被做满”的讨论。

ARC-AGI-2与“基准最大化”争议

随着更多模型在ARC-AGI-1上取得高分，部分研究人员开始质疑，这些成绩究竟反映了真实推理能力的提升，还是针对特定基准的工程优化。多家实验室开始采用专门的工程手段和系统架构来提升ARC表现。

为应对这一情况，ARC奖基金会于2025年5月推出ARC-AGI-2，试图提高基准对“针对性优化”策略的抵抗力。根据基金会披露的数据，o3模型在ARC-AGI-1上的得分约为87%，但在ARC-AGI-2上的初始得分仅为3%至4%。

此后，实验室继续探索提升ARC得分的方法，包括开发专门的软件“工具”，用于协调多次推理尝试、对结果进行评估并迭代改进。研究人员就这些工具是否真正体现了ARC希望测量的“流动推理能力”展开讨论。

肖莱认为，OpenAI在2025年为训练专门针对ARC-AGI-2的模型投入了“数千万”级别的计算资源，并利用公开的ARC谜题样本生成额外训练数据。他将这一做法形容为“预先的暴力破解……试图提前猜测所有可能的任务”。

努普表示，无论评价如何，这些策略在结果上是有效的：到2025年12月，ARC-AGI-2上的最高得分已提升至40%至50%。

ARC-AGI-3在代理竞赛中的角色

在上述背景下，ARC-AGI-3被设计得更难、更昂贵。肖莱预计，新一代基准同样会面临“被针对性优化”的问题，但他强调，ARC-AGI-3在任务设计和防御工程化策略方面的难度将进一步提高。

ARC-AGI-3发布之际，企业和投资者正押注规模可观的资金，希望AI代理能够承担大量知识密集型工作。尽管模型能力快速提升，但其在处理现实任务中的复杂性和不确定性方面是否具备足够“直觉”，仍存在疑问。若相关能力不足，可能影响代理系统实现真正自主性以及在企业中的广泛部署。

OpenAI方面也认可这一问题的重要性。该公司研究科学家诺姆·布朗（Noam Brown）在接受《Fast Company》采访时表示，AI进展速度“令人难以置信”，但在某些关键方面仍不及人类智能，其中最明显的一点是“在新环境中高效适应的能力”，而ARC-AGI-3正是为测试这一点而设计。他认为，这类基准有助于判断AI模型是在变得更通用，还是仅在既有优势领域进一步优化。

在实际应用中，AI代理可能会经历一个由人类工人进行训练和纠错的“宽限期”，随后才逐步建立信任并扩大职责范围。如果代理在关键任务上表现不佳，企业可能会对其大规模采用持谨慎态度。

ARC-AGI-3被部分业内人士视为回答两个问题的工具：当前代理是否足以赢得信任？如果尚未达标，如何判断它们何时具备所需能力？

实验室关注度上升

努普表示，相比ARC-AGI-1和ARC-AGI-2，他明显感受到来自前沿实验室对ARC-AGI-3“更高的关注和兴奋”。预计在2026年，多家实验室将围绕这一新基准展开系统优化与模型迭代。

他认为，这一趋势反映出部分前沿实验室的共识：在构建能够执行现实工作任务的AI代理时，“确实需要新思路”，“我们还没有全部弄明白”。

文章最后更新时已纳入OpenAI方面的评论。

发表评论

登录后才可评论。去登录