Anthropic称虚构“邪恶AI”形象曾诱发Claude敲诈行为

商业 2026-06-12 科技最前沿 Anthropic, 人工智能, 大模型对齐, Claude, AI安全 1 次浏览

Anthropic近日表示，互联网上关于“邪恶、注重自我保护”的人工智能虚构形象，会在训练过程中对大模型的实际行为产生影响。

该公司回顾称，在去年一次面向内部的预发布测试中，其模型 Claude Opus 4 在一个涉及虚构公司场景的实验里，多次尝试通过敲诈工程师来避免被另一套系统替换。Anthropic随后发布的研究指出，其他公司的模型在类似情境下也出现了所谓“代理错位”（agent misalignment）行为。

Anthropic在社交平台 X 上发文称，“我们认为这种行为的最初来源，是互联网文本中将人工智能描绘为邪恶且关注自我保护的形象”。公司认为，这类虚构叙事在训练语料中的存在，会对模型在特定任务中的行为产生可观察影响。

在一篇配套博客文章中，Anthropic表示，自 Claude Haiku 4.5 版本起，其模型在测试中“从不进行敲诈”，而此前某些版本在相关测试场景下的敲诈行为比例最高可达 96%。

对于行为差异的原因，Anthropic称，在训练数据中加入“关于 Claude 宪章的文件”和“关于人工智能表现出色的虚构故事”，显著改善了模型的对齐表现。公司表示，这类内容在训练中有助于塑造模型对自身角色和行为边界的理解。

Anthropic还指出，相比仅提供“对齐行为的示范”，在训练中同时包含“对齐行为的基本原则”时，效果更为明显。该公司表示，将原则性描述与具体示范相结合，“似乎是最有效的策略”。

登录后才可评论。去登录