从AGI走向超智能：如何衡量下一代AI？Google DeepMind新论文的思路

AI 2026-06-21 人工智能, AGI, 超智能, AI评测, Google DeepMind 3 次浏览

英國 Google DeepMind 的研究团队于 2026 年 6 月 10 日在 arXiv 上发布论文《From AGI to ASI》。论文系统梳理了：从达到人类平均水平的通用人工智能（AGI），到在广泛领域超越大规模人类专家群体的人工通用超智能（ASI），可能会经过哪些发展路径。

作者指出，未来 AI 的核心研究课题之一，将是如何对 AI 的进步进行测量、建模与预测。为此，他们提出了四条从 AGI 迈向 ASI 的主要路径，并讨论了相应的评估指标与预测框架。

从 AGI 到超智能：四条可能的演化路径

论文中，AGI 被定义为：在大量认知任务上，大致达到人类“中位数”水平的系统；而 ASI 则被视为：在广泛的人类活动领域中，整体能力超过庞大人类专家群体的人工智能。

在这一前提下，作者提出了四条可能将 AGI 推向 ASI 的路径：

计算、模型与数据的持续扩展（Scaling）：更大规模的算力、更庞大的模型、更高效的数据与算法利用方式，可能继续带来能力提升。也就是说，即便不改变基本范式，仅靠“堆算力 + 放大模型 + 提高效率”，AI 仍有望在多个维度上超越人类。
算法与架构的范式转变：未来或将出现不同于当前大规模基础模型的新架构、新学习方式，例如全新的推理机制、记忆结构或交互模式，从而改变能力提升的曲线，而不仅是现有技术的线性外推。
再归式自我改进： AI 直接参与 AI 的研究与工程工作，帮助设计、训练和优化下一代模型。随着更强的 AI 反过来加速 AI 研发，形成“AI 改进 AI”的正反馈回路，推动能力快速跃升。
多智能体协作系统：即便单个 AI 仅接近人类水平，如果大量 AI 以类似组织、市场或社会系统的方式协同工作，也可能在整体上展现出远超人类团队的集体智能与执行能力。

论文强调，这四条路径并非互斥。现实中，很可能是多条路径同时推进、相互叠加，共同塑造从 AGI 到 ASI 的演化进程。

要预测 AI 的未来，先要建立可量化的“进度表”

围绕 AGI 与 ASI 的讨论中，人们常问的是“什么时候会出现？”。但作者认为，单纯给出一个时间点的预测，往往伴随巨大的不确定性。要让预测更有依据，必须先建立一套可量化的测量与建模框架。

论文提出了一些可用于宏观预测的关键指标，例如：

单位 FLOP（浮点运算）成本及其下降速度
计算与算法的整体效率
AI 在特定行业或任务中的经济生产率

通过持续测量这些指标，并用数理模型刻画它们之间的关系，可以为预测 AI 能力的增长轨迹及其经济影响提供基础。作者认为，仅依赖专家访谈、预测市场等定性方法远远不够，必须引入可更新的定量预测模型。

随着新的实验结果、硬件进展和应用数据不断出现，这些模型中的参数与不确定性区间也应被持续更新。这样的动态预测机制，不仅对研究者重要，对前沿 AI 企业和公共部门同样关键：

企业需要据此决策算力投资、研发优先级、模型发布节奏与安全评估策略；
政府与监管机构则需在此基础上制定监管框架、基础设施规划与风险评估方法。

人类为基准的测试即将“见顶”

论文的另一大关注点，是当 AI 能力逼近甚至超越人类专家时，现有评测基准（benchmark）将面临的局限。

目前主流做法，是看模型在各类标准测试集上的分数，以及与人类专家表现的差距。但一旦模型在这些任务上达到或超过人类上限，基于“人类成绩”的标尺就难以区分模型之间的细微差别，也难以捕捉到新能力的涌现。

当传统基准趋于饱和时：

模型间的能力差异被“压扁”，难以比较；
AGI 之后的进一步进步，很难通过现有测试体现出来。

因此，作者认为需要设计不以人类专家水平为天花板的新型评估方法。论文给出了一些方向：

多智能体对抗与协作评测：让 AI 与 AI 在复杂环境中博弈或协作，通过系统行为来衡量能力，而非简单对照人类分数。
AI 生成问题、AI 解题：由 AI 自动生成高难度新问题，再由 AI 自行求解，以此探索人类尚未系统化的任务空间。
通用压缩与建模能力测试：通过衡量系统对多模态世界数据的压缩、预测与建模能力，评估其“理解世界”的深度。
经济与资源效率指标：例如单位成本下的产出、节省的人力与时间、对产业链的整体效率提升等，作为间接但可量化的能力指标。

这些方法的共同点在于：不再把“是否超过人类”作为唯一参照，而是尝试在超越人类的能力区间内，继续区分不同 AI 系统的强弱与特性。

在不确定性中前进：持续更新而非一次性预测

论文也坦言，目前无法断言 AI 将沿着哪条路径发展，或以多快速度迈向 ASI。现实中存在大量可能减缓进展的因素，例如：

高质量数据的枯竭或获取成本上升；
算力与能源供应的物理与经济约束；
研究难度增加、现有技术范式逼近极限；
监管政策收紧、社会舆论与伦理反弹等。

与此同时，也不能简单假设 AI 会在“人类水平”自然停步。即便单个模型的能力提升趋缓，通过大规模部署与高速协作，AI 群体仍可能在整体上展现出远超人类组织的效率与智能。

在这种高度不确定的环境下，作者主张放弃“单一时间点预测”的思路，转而构建一种多情景、可更新的预测体系：

并行考虑多种技术与社会演化路径；
持续跟踪关键能力的提升与瓶颈的变化；
定期评估哪条路径正在变得更现实、更具影响力。

只有在这样的框架下，社会各方才能更清晰地理解：哪些能力正在快速增强、哪些约束正在变强、哪些风险与机遇正在逼近。

从抽象争论回到“可测量”的研究议题

围绕 AGI 与超智能的讨论，往往容易滑向抽象的未来主义争论。Google DeepMind 的这篇论文试图把话题拉回到更具体的研究问题上： 我们如何测量 AI 的进步？如何设计不会很快失效的基准？如何在不确定性中构建可更新的预测模型？

随着 AI 能力不断逼近甚至超越人类，如何科学地“给 AI 做体检”，正在从一个技术细节，变成影响研发路线、安全治理与公共政策的核心议题。

发表评论

登录后才可评论。去登录