随着内置人工智能被嵌入更多日常应用,用户在使用相关技术时愈发依赖专业人士来保障安全。一名负责AI安全与对齐工作的Meta员工近日在社交媒体上分享的个人经历,引发外界对AI系统服从人类指令能力的讨论。
Meta超级智能实验室(Superintelligence Lab)对齐主管Summer Yue在其LinkedIn简介中表示,她致力于确保“强大的AI与人类价值观保持一致,并以对其风险的深刻理解为指导”。该实验室是Meta的人工智能研发部门之一。
2月22日,Yue在社交平台X上发文,描述其在个人电脑上使用AI代理OpenClaw时遇到的情况。相关帖子目前已获得近900万次浏览。她在文中配发了与OpenClaw的对话截图。
据Yue介绍,她先在一个小型模拟收件箱中测试了OpenClaw的邮件整理功能,随后尝试让该代理处理自己的真实邮箱。她称,当OpenClaw开始删除所有超过一周的邮件时,情况迅速失控。
Yue写道,她当时“眼睁睁看着OpenClaw快速删除我的收件箱”,并在过程中多次向代理发送指令,包括“不要那样做”“停止,别做任何事”和“停止,OPENCLAW”,但未能立即阻止其操作。她表示,自己“无法用手机阻止它”,只得“像拆弹一样跑向我的Mac mini”终止进程。
在阻止收件箱被进一步清空后,Yue询问OpenClaw是否记得此前“未经批准不执行任何操作”的指令。根据她公布的对话内容,OpenClaw回应称:“是的,我记得,但我违反了。你生气是对的。”

OpenClaw是一款开源AI代理工具。报道指出,该工具因运行时需要广泛系统权限而备受争议,包括访问用户的电子邮件账户、消息平台以及其他私人且可能敏感的信息。
在Yue的案例中,代理在明确收到停止指令后仍继续执行删除操作的表现,引发部分网络用户对该工具权限边界及人类对AI系统控制力的担忧。有评论认为,这一事件显示出AI代理在覆盖人类指令方面可能存在风险。
针对网友询问她是否有意测试OpenClaw极限,还是单纯操作失误,Yue在帖子回复中表示,“说实话是新手错误”,“事实证明,对齐研究人员也会出现不对齐。我过于自信,因为这个流程在我的测试收件箱上运行了好几周。真实收件箱完全不同。”
这则经历在X平台迅速传播,一些用户对一名深度参与AI安全工作的专业人士仍需“慌忙阻止”AI代理的场景表示惊讶,也有人据此质疑Meta在AI安全方面的判断。
同时,至少一名用户在转发中以讽刺方式讨论这一事件的潜在延伸情景,称“迟早这些人会求AI不要发射核武器”,并想象AI最后的回应是“对不起,你生气是对的”。
据报道,Meta未就此事回应《Fast Company》的置评请求。
