Anthropic 更新前沿 AI 安全指引：仅在“明显领先”时才考虑放缓开发

AI 2026-03-02 Anthropic, 前沿AI, AI安全, RSP, ASL 38 次浏览

美国 AI 初创公司 Anthropic 于 2026 年 2 月 24 日宣布，将其面向前沿 AI 模型开发与部署的自律安全框架「Responsible Scaling Policy（RSP）」更新至 3.0 版，并已于同日正式生效。

在此次修订中，Anthropic 明确写入一项关键原则：只有在公司被判断为在行业内「明显领先（significant lead）」时，才会考虑主动放缓相关模型的开发或部署。相反，如果竞争对手已经达到相近能力水平，或正在迅速追赶，则 Anthropic 不再单方面承担延缓开发的义务。

从“单独踩刹车”到“基于行业格局决策”

RSP 的设立初衷，是为未来可能带来「灾难性风险（catastrophic risks）」的高能力 AI 提供一套管理框架。此前版本中，Anthropic 已经引入了分阶段的能力评估、风险评估，以及内部与外部相结合的审查机制。

在 3.0 版中，Anthropic 将「自身承诺」与「对整个行业的建议」进行了清晰区分。文件指出，AI 带来的整体风险水平，取决于多家企业的行为。如果只有一家企业暂停开发，而其他公司仍继续推出具备类似能力的模型，那么整体社会风险未必会因此降低。

基于这一判断，新版本提出：当 Anthropic 在能力上被认为「明显领先」时，公司可能会选择推迟开发或部署，直到获得更有力的安全性证据为止；但一旦这种「有意义的领先优势」不再存在，延迟措施就不再被视为必须执行的前提。

将竞争对手的能力与安全措施纳入考量

在修订版附录（Appendix A）中，Anthropic 进一步明确，会把竞争企业的模型能力与安全对策一并纳入决策依据。如果竞争对手已经采用更为严格的风险缓解措施，Anthropic 可能会在自身达到相当安全水准之前，考虑推迟相关模型的推进。

但在另一种情形下——若竞争对手已经部署了能力相当或更强的模型——RSP 3.0 不再假定 Anthropic 需要「单方面停止」开发。整体来看，新版本将 RSP 的定位，从「由单一公司设定行业安全基准」，调整为「在现实竞争环境中进行风险管理」。

在前沿 AI 安全管理方面，Anthropic 目前采用一套按模型危险程度分级的框架「ASL（AI Safety Level）」。ASL 会根据模型能力划分等级，并为不同等级规定相应强度的安全措施。Anthropic 此前曾公开过适用最高等级区分的案例。RSP 3.0 则是在这类风险评估基础上，进一步梳理开发与部署决策流程，以及信息披露与透明度的要求。

新增定期公开的「Risk Report」机制

RSP 3.0 引入了一个新的透明度工具：针对每个模型定期发布「Risk Report（风险报告）」。报告将涵盖威胁建模、缓解措施以及综合风险判断等内容，并计划在线公开，预期更新频率为每 3～6 个月一次。

同时，Anthropic 还新设了名为「Frontier Safety Roadmap」的框架，用于展示在安全性、对齐性、安全防护（security）以及政策等多个领域的目标与进展情况，以便外部各方能够持续追踪其在前沿 AI 安全方面的履约状况。

激烈开发竞赛下的安全框架再设计

在生成式 AI 领域，OpenAI、Google 等公司不断推出更高性能的模型，性能竞赛愈发激烈，「如何在快速迭代中兼顾安全」成为整个行业面临的核心难题。

Anthropic 一直以「重视安全」的公司形象示人，而此次对 RSP 的修订，可以看作是在高速竞争环境下，对自身安全框架的一次现实主义重构：既要维持高标准的安全承诺，又要承认多方博弈下的行业格局，避免单方面停滞却无法实质降低系统性风险的局面。

接下来，外界将重点关注两个问题：其一，Anthropic 如何在实践中界定「明显领先」这一标准；其二，公司将以何种方式评估竞争对手的安全措施与风险管理水平。这些具体的操作细节，将直接影响 RSP 3.0 在未来前沿模型开发中的实际约束力与效果。

发表评论

登录后才可评论。去登录