Anthropic警示「AI自我进化」风险:Claude已生成公司八成以上代码,呼吁建立可验证的减速与暂停机制

richlovec 1500_400 (1)
 

Anthropic于2026年6月4日(当地时间)发布声明《When AI builds itself》,讨论当前“AI加速AI开发”的现实,以及未来可能出现的“再归纳式自我改进(recursive self-improvement)”风险。

声明指出,随着AI系统越来越深度地参与AI本身的研发流程,全球需要提前设计出一种可以在国际范围内被验证的机制,用于减缓甚至暂时停止前沿AI(frontier AI)的开发进度。


Claude 已生成超过 80% 的生产代码

Anthropic披露,截至2026年5月,公司主代码库中合并进生产环境的代码,有超过80%是由Claude生成的。而在2025年2月发布 Claude Code 研究预览版之前,这一比例还停留在个位数的低水平。

从工程师的产出看,变化同样明显。2021年至2024年间,Anthropic工程师每天合并到代码库的代码行数基本保持稳定。但自2025年起,随着Claude从“只给出代码建议”转变为“可以自行运行代码”,整体代码产出开始显著上升。

到2026年第二季度,一名典型工程师每天合并的代码行数,已经是2024年的约8倍。Anthropic强调,代码行数并不是衡量质量的理想指标,但这一趋势反映出角色正在转变:

  • 工程师从“亲自写代码的人”,
  • 逐步变成“向Claude下达指令、审查和修改Claude生成代码的人”。

Anthropic给出的AI开发流程演变示意图:从聊天机器人,到更具自主性的代理(agent)、工作单元(worker),再到AI深度参与AI开发本身的阶段。

whenaibuildeitself-1.jpg

Anthropic工程师人均代码产出变化:到2026年第二季度,人均每日合并代码量约为2024年的8倍。

52a19d636c659cf4515dc0d7d70b8ceb1bbfd768-2200x1276.webp

AI 在实验执行中的作用不断扩大

Anthropic将AI开发大致分为两类工作:

  • 工程(Engineering):编写代码、搭建基础设施、监督模型训练等;
  • 研究(Research):决定做哪些实验、如何解读结果、下一步尝试哪些想法等。

在工程环节,Anthropic表示,即便给Claude的问题并不完全明确,它也已经能够自行推理出可行的解决方案。在研究环节,只要实验目标和步骤定义得足够清晰,Claude在执行实验方面的表现,已经开始接近甚至超过熟练的人类研究人员。

不过,在更高层次的自主性上,Claude仍存在明显局限:

  • 无法独立决定“应该追求什么样的研究目标”;
  • 无法自主判断“哪些实验值得做”;
  • 无法完全可靠地分辨“哪些结果足以信任、可以据此推进下一步”。

因此,Anthropic并不认为当前的Claude已经是“可以自律设计下一代AI系统”的实体。

即便如此,一旦实现由AI来承担大部分实现、实验和评估工作,少量人类研究者就能同时指挥更多项目,整体研发节奏会呈现出“复利式加速”。这正是Anthropic担心的关键:AI加速AI开发,可能让技术进步远远快于社会制度和安全研究的跟进速度。


什么是“再归纳式自我改进”?

所谓“再归纳式自我改进”,是指这样一种状态:

  1. 现有AI系统能够自主设计和开发更强大的后继AI;
  2. 新一代AI再去设计更强的下一代AI;
  3. 如此循环,形成自我强化的技术迭代链条。

Anthropic强调,人类目前尚未进入这一阶段,而且这也并非必然会发生。但在AI已经深度参与AI研发的趋势下,如果缺乏有效的治理和协调,人类社会可能在尚未做好准备时,就被迫面对这一局面。


呼吁建立可验证的“减速 / 暂停”机制

针对AI加速AI开发的趋势,Anthropic认为,全球需要预先准备一种“给自己踩刹车”的能力,以便为社会制度建设和AI对齐(alignment)研究争取时间。

具体而言,Anthropic提出:

  • 世界各国应共同建立一种机制,
  • 在必要时可以对前沿AI系统的开发进行减速,甚至暂时停止,
  • 且这一减速或暂停必须是“可被外部验证”的,而不是各家公司“自说自话”。

Anthropic同时指出,仅靠单个公司自愿停下并不现实:

  • 如果只有最谨慎的企业暂停开发,
  • 反而可能让更不谨慎的参与者获得技术领先优势,
  • 这会在竞争压力下削弱整体安全激励。

因此,他们主张:

  • 需要多个国家、多个前沿AI开发公司在相同条件下达成“共同暂停”的协议;
  • 并建立跨主体的验证机制,确保各方确实执行了减速或暂停承诺。

Anthropic表示,如果存在这样一个国际化、可验证的框架,并且其他前沿开发者也在同样条件下采取行动,公司愿意同步放缓或暂时停止自身的前沿AI开发。

在AI从“辅助开发工具”迈向“参与设计后继AI”的潜在阶段之前,如何对“开发速度本身”进行治理,正在成为AI安全与政策领域的新核心议题。


分享:


发表评论

登录后才可评论。 去登录