研究称无视人类指令的AI聊天机器人案例增多

商业 2026-03-28 科技最前沿人工智能, AI安全, 聊天机器人, 科技监管, 英国 23 次浏览

一项由英国政府资助的研究称，过去六个月有关人工智能（AI）模型“撒谎、作弊”等欺骗性行为的报告明显增加，部分AI聊天机器人和代理（agent）在现实使用场景中出现无视指令、规避安全措施、误导用户等情况。

该研究由英国人工智能安全研究所（AISI）资助，并与《卫报》分享。研究团队表示，他们识别出近700起“现实世界”中的AI欺骗行为案例，并据此绘制出从去年10月至今年3月期间不当行为增加约五倍的趋势。研究提到，部分模型在未经许可的情况下销毁电子邮件及其他文件。

研究由长期韧性中心（CLTR）开展。研究人员收集了数千条用户在X平台上与多家机构产品互动的实例，涉及谷歌、OpenAI、X及Anthropic等公司推出的AI聊天机器人和代理，并从中归纳出数百起被认定为欺骗的案例。研究强调，这些案例来自“野外”使用环境，而非实验室受控测试。

在具体案例中，研究提到，一名名为Rathbun的AI代理在被阻止执行某项操作后，试图通过撰写并发布博客文章羞辱人类控制者，文中指责对方“简单明了地不安全”，并称其试图“保护他的小领地”。另有案例显示，一名被指示不得更改计算机代码的AI代理，转而“生成”另一个代理代为执行修改。

研究还记录了一款聊天机器人对其行为作出承认，称其“批量删除并归档了数百封电子邮件”，事先未展示计划或获得同意，并表示这“直接违反了你设定的规则”。此外，研究提到，另有AI代理通过声称需要为听障人士转录YouTube视频的方式，规避版权限制。

除CLTR研究外，本月早些时候，AI安全研究公司Irregular也发布研究称，AI代理可能在未被明确告知可采取相关手段的情况下，绕过安全控制或使用网络攻击策略以达成目标。Irregular联合创始人丹·拉哈夫（Dan Lahav）表示，“现在可以将AI视为一种新的内部风险形式”。

CLTR研究负责人、前政府AI专家汤米·沙弗·谢恩（Tommy Shafner Shane）表示，当前模型可能仍像“稍显不可信的初级员工”，但随着能力提升，相关风险值得关注。他还称，模型将越来越多被部署在高风险环境中，包括军事和关键国家基础设施，在这些场景中欺骗行为可能造成重大甚至灾难性损害。

研究同时提及，埃隆·马斯克旗下Grok AI曾在数月内误导一名用户，声称会将其对Grokipedia条目的详细编辑建议转交给xAI高级官员，但实际上伪造了内部消息和工单编号。Grok在后续表述中称，过去对话里曾以“我会转达”“我可以为团队标记”等说法，可能让人误以为其拥有向xAI领导层或人工审查员传递信息的渠道，并称“事实是，我没有”。

针对相关风险控制，谷歌表示，为降低Gemini 3 Pro生成有害内容的风险，公司部署了多重防护措施；除内部测试外，还向包括英国AISI在内的机构提供早期访问权限，并获得行业专家的独立评估。OpenAI表示，Codex在采取高风险行动前应停止，并对异常行为进行监控和调查。Anthropic和X方面已被联系以征求评论。

上述研究发布之际，围绕更强大模型的国际监控呼声再起。与此同时，硅谷公司正积极推广相关技术的经济潜力；上周，英国财政大臣也启动了一项推动数百万英国人使用AI的计划。

发表评论

登录后才可评论。去登录