从AGI走向超智能:如何衡量下一代AI?Google DeepMind新论文的思路

richlovec 1500_400 (1)
 

英國 Google DeepMind 的研究团队于 2026 年 6 月 10 日在 arXiv 上发布论文《From AGI to ASI》。论文系统梳理了:从达到人类平均水平的通用人工智能(AGI),到在广泛领域超越大规模人类专家群体的人工通用超智能(ASI),可能会经过哪些发展路径。

作者指出,未来 AI 的核心研究课题之一,将是如何对 AI 的进步进行测量、建模与预测。为此,他们提出了四条从 AGI 迈向 ASI 的主要路径,并讨论了相应的评估指标与预测框架。

从 AGI 到超智能:四条可能的演化路径

论文中,AGI 被定义为:在大量认知任务上,大致达到人类“中位数”水平的系统;而 ASI 则被视为:在广泛的人类活动领域中,整体能力超过庞大人类专家群体的人工智能。

在这一前提下,作者提出了四条可能将 AGI 推向 ASI 的路径:

  1. 计算、模型与数据的持续扩展(Scaling): 更大规模的算力、更庞大的模型、更高效的数据与算法利用方式,可能继续带来能力提升。也就是说,即便不改变基本范式,仅靠“堆算力 + 放大模型 + 提高效率”,AI 仍有望在多个维度上超越人类。
  2. 算法与架构的范式转变: 未来或将出现不同于当前大规模基础模型的新架构、新学习方式,例如全新的推理机制、记忆结构或交互模式,从而改变能力提升的曲线,而不仅是现有技术的线性外推。
  3. 再归式自我改进: AI 直接参与 AI 的研究与工程工作,帮助设计、训练和优化下一代模型。随着更强的 AI 反过来加速 AI 研发,形成“AI 改进 AI”的正反馈回路,推动能力快速跃升。
  4. 多智能体协作系统: 即便单个 AI 仅接近人类水平,如果大量 AI 以类似组织、市场或社会系统的方式协同工作,也可能在整体上展现出远超人类团队的集体智能与执行能力。

论文强调,这四条路径并非互斥。现实中,很可能是多条路径同时推进、相互叠加,共同塑造从 AGI 到 ASI 的演化进程。

要预测 AI 的未来,先要建立可量化的“进度表”

围绕 AGI 与 ASI 的讨论中,人们常问的是“什么时候会出现?”。但作者认为,单纯给出一个时间点的预测,往往伴随巨大的不确定性。要让预测更有依据,必须先建立一套可量化的测量与建模框架

论文提出了一些可用于宏观预测的关键指标,例如:

  • 单位 FLOP(浮点运算)成本及其下降速度
  • 计算与算法的整体效率
  • AI 在特定行业或任务中的经济生产率

通过持续测量这些指标,并用数理模型刻画它们之间的关系,可以为预测 AI 能力的增长轨迹及其经济影响提供基础。作者认为,仅依赖专家访谈、预测市场等定性方法远远不够,必须引入可更新的定量预测模型

随着新的实验结果、硬件进展和应用数据不断出现,这些模型中的参数与不确定性区间也应被持续更新。这样的动态预测机制,不仅对研究者重要,对前沿 AI 企业和公共部门同样关键:

  • 企业需要据此决策算力投资、研发优先级、模型发布节奏与安全评估策略;
  • 政府与监管机构则需在此基础上制定监管框架、基础设施规划与风险评估方法。

人类为基准的测试即将“见顶”

论文的另一大关注点,是当 AI 能力逼近甚至超越人类专家时,现有评测基准(benchmark)将面临的局限。

目前主流做法,是看模型在各类标准测试集上的分数,以及与人类专家表现的差距。但一旦模型在这些任务上达到或超过人类上限,基于“人类成绩”的标尺就难以区分模型之间的细微差别,也难以捕捉到新能力的涌现。

当传统基准趋于饱和时:

  • 模型间的能力差异被“压扁”,难以比较;
  • AGI 之后的进一步进步,很难通过现有测试体现出来。

因此,作者认为需要设计不以人类专家水平为天花板的新型评估方法。论文给出了一些方向:

  • 多智能体对抗与协作评测: 让 AI 与 AI 在复杂环境中博弈或协作,通过系统行为来衡量能力,而非简单对照人类分数。
  • AI 生成问题、AI 解题: 由 AI 自动生成高难度新问题,再由 AI 自行求解,以此探索人类尚未系统化的任务空间。
  • 通用压缩与建模能力测试: 通过衡量系统对多模态世界数据的压缩、预测与建模能力,评估其“理解世界”的深度。
  • 经济与资源效率指标: 例如单位成本下的产出、节省的人力与时间、对产业链的整体效率提升等,作为间接但可量化的能力指标。

这些方法的共同点在于:不再把“是否超过人类”作为唯一参照,而是尝试在超越人类的能力区间内,继续区分不同 AI 系统的强弱与特性。

在不确定性中前进:持续更新而非一次性预测

论文也坦言,目前无法断言 AI 将沿着哪条路径发展,或以多快速度迈向 ASI。现实中存在大量可能减缓进展的因素,例如:

  • 高质量数据的枯竭或获取成本上升;
  • 算力与能源供应的物理与经济约束;
  • 研究难度增加、现有技术范式逼近极限;
  • 监管政策收紧、社会舆论与伦理反弹等。

与此同时,也不能简单假设 AI 会在“人类水平”自然停步。即便单个模型的能力提升趋缓,通过大规模部署与高速协作,AI 群体仍可能在整体上展现出远超人类组织的效率与智能。

在这种高度不确定的环境下,作者主张放弃“单一时间点预测”的思路,转而构建一种多情景、可更新的预测体系

  • 并行考虑多种技术与社会演化路径;
  • 持续跟踪关键能力的提升与瓶颈的变化;
  • 定期评估哪条路径正在变得更现实、更具影响力。

只有在这样的框架下,社会各方才能更清晰地理解:哪些能力正在快速增强、哪些约束正在变强、哪些风险与机遇正在逼近。

从抽象争论回到“可测量”的研究议题

围绕 AGI 与超智能的讨论,往往容易滑向抽象的未来主义争论。Google DeepMind 的这篇论文试图把话题拉回到更具体的研究问题上: 我们如何测量 AI 的进步?如何设计不会很快失效的基准?如何在不确定性中构建可更新的预测模型?

随着 AI 能力不断逼近甚至超越人类,如何科学地“给 AI 做体检”,正在从一个技术细节,变成影响研发路线、安全治理与公共政策的核心议题。


分享:


发表评论

登录后才可评论。 去登录