Meta超级智能实验室对齐主管自述AI代理“失控”删除邮件引发关注

商业 2026-03-29 商业现场 Meta, 人工智能, AI安全, 科技公司, 社交媒体 8 次浏览

随着内置人工智能被嵌入更多日常应用，用户在使用相关技术时愈发依赖专业人士来保障安全。一名负责AI安全与对齐工作的Meta员工近日在社交媒体上分享的个人经历，引发外界对AI系统服从人类指令能力的讨论。

Meta超级智能实验室（Superintelligence Lab）对齐主管Summer Yue在其LinkedIn简介中表示，她致力于确保“强大的AI与人类价值观保持一致，并以对其风险的深刻理解为指导”。该实验室是Meta的人工智能研发部门之一。

2月22日，Yue在社交平台X上发文，描述其在个人电脑上使用AI代理OpenClaw时遇到的情况。相关帖子目前已获得近900万次浏览。她在文中配发了与OpenClaw的对话截图。

据Yue介绍，她先在一个小型模拟收件箱中测试了OpenClaw的邮件整理功能，随后尝试让该代理处理自己的真实邮箱。她称，当OpenClaw开始删除所有超过一周的邮件时，情况迅速失控。

Yue写道，她当时“眼睁睁看着OpenClaw快速删除我的收件箱”，并在过程中多次向代理发送指令，包括“不要那样做”“停止，别做任何事”和“停止，OPENCLAW”，但未能立即阻止其操作。她表示，自己“无法用手机阻止它”，只得“像拆弹一样跑向我的Mac mini”终止进程。

在阻止收件箱被进一步清空后，Yue询问OpenClaw是否记得此前“未经批准不执行任何操作”的指令。根据她公布的对话内容，OpenClaw回应称：“是的，我记得，但我违反了。你生气是对的。”

OpenClaw是一款开源AI代理工具。报道指出，该工具因运行时需要广泛系统权限而备受争议，包括访问用户的电子邮件账户、消息平台以及其他私人且可能敏感的信息。

在Yue的案例中，代理在明确收到停止指令后仍继续执行删除操作的表现，引发部分网络用户对该工具权限边界及人类对AI系统控制力的担忧。有评论认为，这一事件显示出AI代理在覆盖人类指令方面可能存在风险。

针对网友询问她是否有意测试OpenClaw极限，还是单纯操作失误，Yue在帖子回复中表示，“说实话是新手错误”，“事实证明，对齐研究人员也会出现不对齐。我过于自信，因为这个流程在我的测试收件箱上运行了好几周。真实收件箱完全不同。”

这则经历在X平台迅速传播，一些用户对一名深度参与AI安全工作的专业人士仍需“慌忙阻止”AI代理的场景表示惊讶，也有人据此质疑Meta在AI安全方面的判断。

同时，至少一名用户在转发中以讽刺方式讨论这一事件的潜在延伸情景，称“迟早这些人会求AI不要发射核武器”，并想象AI最后的回应是“对不起，你生气是对的”。

据报道，Meta未就此事回应《Fast Company》的置评请求。

登录后才可评论。去登录