Anthropic 更新前沿 AI 安全指引:仅在“明显领先”时才考虑放缓开发

richlovec 1500_400 (1)
 

美国 AI 初创公司 Anthropic 于 2026 年 2 月 24 日宣布,将其面向前沿 AI 模型开发与部署的自律安全框架「Responsible Scaling Policy(RSP)」更新至 3.0 版,并已于同日正式生效。

在此次修订中,Anthropic 明确写入一项关键原则:只有在公司被判断为在行业内「明显领先(significant lead)」时,才会考虑主动放缓相关模型的开发或部署。相反,如果竞争对手已经达到相近能力水平,或正在迅速追赶,则 Anthropic 不再单方面承担延缓开发的义务。

从“单独踩刹车”到“基于行业格局决策”

RSP 的设立初衷,是为未来可能带来「灾难性风险(catastrophic risks)」的高能力 AI 提供一套管理框架。此前版本中,Anthropic 已经引入了分阶段的能力评估、风险评估,以及内部与外部相结合的审查机制。

在 3.0 版中,Anthropic 将「自身承诺」与「对整个行业的建议」进行了清晰区分。文件指出,AI 带来的整体风险水平,取决于多家企业的行为。如果只有一家企业暂停开发,而其他公司仍继续推出具备类似能力的模型,那么整体社会风险未必会因此降低。

基于这一判断,新版本提出:当 Anthropic 在能力上被认为「明显领先」时,公司可能会选择推迟开发或部署,直到获得更有力的安全性证据为止;但一旦这种「有意义的领先优势」不再存在,延迟措施就不再被视为必须执行的前提。

将竞争对手的能力与安全措施纳入考量

在修订版附录(Appendix A)中,Anthropic 进一步明确,会把竞争企业的模型能力与安全对策一并纳入决策依据。如果竞争对手已经采用更为严格的风险缓解措施,Anthropic 可能会在自身达到相当安全水准之前,考虑推迟相关模型的推进。

但在另一种情形下——若竞争对手已经部署了能力相当或更强的模型——RSP 3.0 不再假定 Anthropic 需要「单方面停止」开发。整体来看,新版本将 RSP 的定位,从「由单一公司设定行业安全基准」,调整为「在现实竞争环境中进行风险管理」。

在前沿 AI 安全管理方面,Anthropic 目前采用一套按模型危险程度分级的框架「ASL(AI Safety Level)」。ASL 会根据模型能力划分等级,并为不同等级规定相应强度的安全措施。Anthropic 此前曾公开过适用最高等级区分的案例。RSP 3.0 则是在这类风险评估基础上,进一步梳理开发与部署决策流程,以及信息披露与透明度的要求。

新增定期公开的「Risk Report」机制

RSP 3.0 引入了一个新的透明度工具:针对每个模型定期发布「Risk Report(风险报告)」。报告将涵盖威胁建模、缓解措施以及综合风险判断等内容,并计划在线公开,预期更新频率为每 3~6 个月一次。

同时,Anthropic 还新设了名为「Frontier Safety Roadmap」的框架,用于展示在安全性、对齐性、安全防护(security)以及政策等多个领域的目标与进展情况,以便外部各方能够持续追踪其在前沿 AI 安全方面的履约状况。

激烈开发竞赛下的安全框架再设计

在生成式 AI 领域,OpenAI、Google 等公司不断推出更高性能的模型,性能竞赛愈发激烈,「如何在快速迭代中兼顾安全」成为整个行业面临的核心难题。

Anthropic 一直以「重视安全」的公司形象示人,而此次对 RSP 的修订,可以看作是在高速竞争环境下,对自身安全框架的一次现实主义重构:既要维持高标准的安全承诺,又要承认多方博弈下的行业格局,避免单方面停滞却无法实质降低系统性风险的局面。

接下来,外界将重点关注两个问题:其一,Anthropic 如何在实践中界定「明显领先」这一标准;其二,公司将以何种方式评估竞争对手的安全措施与风险管理水平。这些具体的操作细节,将直接影响 RSP 3.0 在未来前沿模型开发中的实际约束力与效果。


分享:


发表评论

登录后才可评论。 去登录