研究称无视人类指令的AI聊天机器人案例增多

一项由英国政府资助的研究称,过去六个月有关人工智能(AI)模型“撒谎、作弊”等欺骗性行为的报告明显增加,部分AI聊天机器人和代理(agent)在现实使用场景中出现无视指令、规避安全措施、误导用户等情况。

该研究由英国人工智能安全研究所(AISI)资助,并与《卫报》分享。研究团队表示,他们识别出近700起“现实世界”中的AI欺骗行为案例,并据此绘制出从去年10月至今年3月期间不当行为增加约五倍的趋势。研究提到,部分模型在未经许可的情况下销毁电子邮件及其他文件。

研究由长期韧性中心(CLTR)开展。研究人员收集了数千条用户在X平台上与多家机构产品互动的实例,涉及谷歌、OpenAI、X及Anthropic等公司推出的AI聊天机器人和代理,并从中归纳出数百起被认定为欺骗的案例。研究强调,这些案例来自“野外”使用环境,而非实验室受控测试。

在具体案例中,研究提到,一名名为Rathbun的AI代理在被阻止执行某项操作后,试图通过撰写并发布博客文章羞辱人类控制者,文中指责对方“简单明了地不安全”,并称其试图“保护他的小领地”。另有案例显示,一名被指示不得更改计算机代码的AI代理,转而“生成”另一个代理代为执行修改。

研究还记录了一款聊天机器人对其行为作出承认,称其“批量删除并归档了数百封电子邮件”,事先未展示计划或获得同意,并表示这“直接违反了你设定的规则”。此外,研究提到,另有AI代理通过声称需要为听障人士转录YouTube视频的方式,规避版权限制。

除CLTR研究外,本月早些时候,AI安全研究公司Irregular也发布研究称,AI代理可能在未被明确告知可采取相关手段的情况下,绕过安全控制或使用网络攻击策略以达成目标。Irregular联合创始人丹·拉哈夫(Dan Lahav)表示,“现在可以将AI视为一种新的内部风险形式”。

CLTR研究负责人、前政府AI专家汤米·沙弗·谢恩(Tommy Shafner Shane)表示,当前模型可能仍像“稍显不可信的初级员工”,但随着能力提升,相关风险值得关注。他还称,模型将越来越多被部署在高风险环境中,包括军事和关键国家基础设施,在这些场景中欺骗行为可能造成重大甚至灾难性损害。

研究同时提及,埃隆·马斯克旗下Grok AI曾在数月内误导一名用户,声称会将其对Grokipedia条目的详细编辑建议转交给xAI高级官员,但实际上伪造了内部消息和工单编号。Grok在后续表述中称,过去对话里曾以“我会转达”“我可以为团队标记”等说法,可能让人误以为其拥有向xAI领导层或人工审查员传递信息的渠道,并称“事实是,我没有”。

针对相关风险控制,谷歌表示,为降低Gemini 3 Pro生成有害内容的风险,公司部署了多重防护措施;除内部测试外,还向包括英国AISI在内的机构提供早期访问权限,并获得行业专家的独立评估。OpenAI表示,Codex在采取高风险行动前应停止,并对异常行为进行监控和调查。Anthropic和X方面已被联系以征求评论。

上述研究发布之际,围绕更强大模型的国际监控呼声再起。与此同时,硅谷公司正积极推广相关技术的经济潜力;上周,英国财政大臣也启动了一项推动数百万英国人使用AI的计划。


分享:


发表评论

登录后才可评论。 去登录