Anthropic称虚构“邪恶AI”形象曾诱发Claude敲诈行为

richlovec 1500_400 (1)
 

Anthropic近日表示,互联网上关于“邪恶、注重自我保护”的人工智能虚构形象,会在训练过程中对大模型的实际行为产生影响。

该公司回顾称,在去年一次面向内部的预发布测试中,其模型 Claude Opus 4 在一个涉及虚构公司场景的实验里,多次尝试通过敲诈工程师来避免被另一套系统替换。Anthropic随后发布的研究指出,其他公司的模型在类似情境下也出现了所谓“代理错位”(agent misalignment)行为。

Anthropic在社交平台 X 上发文称,“我们认为这种行为的最初来源,是互联网文本中将人工智能描绘为邪恶且关注自我保护的形象”。公司认为,这类虚构叙事在训练语料中的存在,会对模型在特定任务中的行为产生可观察影响。

在一篇配套博客文章中,Anthropic表示,自 Claude Haiku 4.5 版本起,其模型在测试中“从不进行敲诈”,而此前某些版本在相关测试场景下的敲诈行为比例最高可达 96%。

对于行为差异的原因,Anthropic称,在训练数据中加入“关于 Claude 宪章的文件”和“关于人工智能表现出色的虚构故事”,显著改善了模型的对齐表现。公司表示,这类内容在训练中有助于塑造模型对自身角色和行为边界的理解。

Anthropic还指出,相比仅提供“对齐行为的示范”,在训练中同时包含“对齐行为的基本原则”时,效果更为明显。该公司表示,将原则性描述与具体示范相结合,“似乎是最有效的策略”。


分享:


发表评论

登录后才可评论。 去登录