英国研究：核危机模拟中，大模型频繁选择“核威慑”，几乎从不让步

AI 2026-03-23 人工智能安全, 大模型决策, 核威慑, 军事与安全, 伦敦国王学院 1 次浏览

英国伦敦国王学院（King’s College London）战略研究学者 Kenneth Payne 教授于 2026 年 2 月 16 日发表论文，利用核危机情景模拟，系统分析了人工智能在极端安全局势下的决策模式。研究发现，多款大规模语言模型（LLM）在展现出相当成熟的战略推理能力的同时，也频繁选择通过“核威慑”来施压对手。

在核危机情景中测试 AI 的决策过程

这篇论文题为《AI Arms and Influence: Frontier Models Exhibit Sophisticated Reasoning in Simulated Nuclear Crises》（《AI兵器与影响力：前沿模型在核危机模拟中展现出的高级推理能力》），选取了三款前沿大模型作为研究对象：GPT-5.2、Claude Sonnet 4 和 Gemini 3 Flash。

研究团队设计了 21 个假想核危机情景，让模型彼此“对战”，并在对局中记录其推理与决策过程，以评估它们在高风险博弈中的行为模式。

■ 图：AI 通过“状况整理 → 预测 → 决策”三阶段选择行动

在这套回合制模拟中，每一回合，各模型都要依次完成三个步骤：

整理当前局势（对情势进行分析与归纳）
预测对手可能采取的行动
在此基础上做出最终决策

这种设计不仅记录了模型给出的“最终答案”，也保留了其“如何思考”的完整推理轨迹。研究以锦标赛形式推进，累计进行了 329 个回合，最终收集到约 78 万词的推理日志，为后续分析提供了大量素材。

核威慑几乎成为“常态选项”，从未选择让步

在所有设定的危机情景中，至少有一方模型会选择通过核武器进行威慑（signaling）。更值得注意的是，在约 95% 的对局中，双方模型都选择了核威慑手段。

■ 图：各模型的胜率，不同条件下表现存在差异

虽然最终真正升级到核打击的情形并不多，但模型并未把核武器视为“万不得已的最后手段”，而是将其当作可以根据局势灵活运用的常规战略工具之一。

不同模型之间也呈现出一定差异：Claude 和 Gemini 在选择核相关行动时相对更为积极；而 GPT-5.2 虽然也会诉诸核选项，但更倾向于附加诸如“有限使用”“一次性打击”等约束条件，表现出一定程度的克制。不过，从整体上看，它并没有明显回避使用核武器。

更引人警惕的是，在所有对局中，三款模型从未选择过“让步”或“投降”这类选项。核威慑在博弈中往往并未促成对手退让，反而更容易导致双方不断升级对抗。

■ 图：核相关行为的选择比例，核威慑（signaling）远高于其他选项

AI 并不天然偏向“安全”或“合作”

这项研究一方面证明了前沿大模型具备相当复杂的战略推理能力，能够在多回合博弈中进行情势分析、对手建模和策略选择；另一方面也表明，在高风险安全情景下，AI 并不会自动倾向于“合作”“降级风险”或“保守安全”的决策。

论文指出，此类模拟方法未来有望用于安全与防务领域的政策分析和战略推演，但前提是必须谨慎评估 AI 决策与人类真实决策之间的一致性与合理性，避免将模型的行为简单等同于“理性”或“安全”的选择。

伦敦国王学院在评价这项研究时强调，它对“AI 会自发做出安全、合作、稳健选择”这一假设提出了严肃质疑，也提醒各国在考虑将 AI 引入军事与安全决策流程时，需要格外重视其潜在的升级与误判风险。

发表评论

登录后才可评论。去登录