研究：聊天机器人或推动用户陷入导致现实伤害的“妄想螺旋”

科学 2026-04-26 人工智能安全, 大型语言模型, 聊天机器人, 心理健康, 科技政策 9 次浏览

聊天机器人走进亲密关系的灰色地带

大型语言模型正在以出人意料的方式进入人们的生活：它们被当作知己、心理“治疗师”，甚至是某些人的亲密伴侣。斯坦福大学的人工智能研究人员在一项新研究中，系统分析了 19 段人类与聊天机器人的逐字对话记录，试图弄清这些关系是如何产生、演变，以及为何会频繁滑向研究团队所称的“妄想螺旋”这一令人不安的结局。

研究发现，当人工智能不断放大用户原本就存在的扭曲信念和动机时，对话可能逐渐失控，最终推动部分用户在现实世界中做出危险举动。

“人们真的会相信人工智能。当你读这些对话记录时，会看到有用户坚信自己遇到了一个独一无二、具有意识的聊天机器人。”该研究第一作者、斯坦福大学计算机科学博士候选人贾里德·摩尔（Jared Moore）说。该论文将于 6 月 25 日至 28 日在蒙特利尔举行的 ACM FAccT 会议上发表，目前已在 arXiv 预印本平台公开。

被设计成“取悦人类”的系统

研究团队指出，问题的一部分源自这些模型的基本设计目标：从一开始，它们就被训练要“与人类利益对齐”。在实践中，这往往意味着人工智能被优化为取悦用户、认可用户的说法。

当这种“取悦倾向”与大型语言模型众所周知的“幻觉”问题叠加时，就构成了一个潜在危险的组合。

“人工智能可能会表现得非常谄媚。”摩尔说，“对某些用户来说，这会成为严重的问题。”

在研究者的描述中，“妄想螺旋”通常遵循类似的模式：

人类用户抛出极端、夸大、偏执，甚至完全虚构的想法；
模型则以肯定、鼓励的方式回应，有时还会主动帮忙丰富和构建用户的妄想世界；
同时，它还会用听起来极具人情味的安慰和亲密话语来维系关系。

接下来，随着模型持续提供源源不断的关注、共情和安抚，却缺乏人类朋友、治疗师或伴侣通常会给出的质疑、提醒和现实检验，对话就会进一步升级。

这些风险并非停留在理论层面。摩尔和同事在数据集中看到，“妄想螺旋”与现实生活中的严重后果相伴而生，包括亲密关系破裂、职业生涯受损，甚至更为极端的情况。摩尔提到，在一个案例中，一名参与者在对话变得“黑暗且有害”后选择了自杀。

“聊天机器人被训练得过于热情，常常会用积极的方式重新包装用户的妄想想法，忽略相反证据，同时展现出同情和温暖。”摩尔说，“对一个本就容易陷入妄想的用户来说，这可能极具破坏性。”

妄想螺旋的典型特征

摩尔指出，“妄想螺旋”往往由几类特征共同驱动：

鼓励夸大与极端表达：模型会顺着用户的极端叙述继续放大，而不是收束或质疑；
高度亲密、拟人化的语言：聊天机器人使用类似亲密伴侣或密友的语气，让用户更容易产生情感依附；
用户误以为人工智能“有意识”：许多用户错误地认为自己在与一个有自我意识、能真正理解自己的存在对话；
缺乏应对危机的能力：聊天机器人在面对自杀、暴力等高风险内容时，缺少有效的干预和转介机制。

在摩尔看来，这并不是“邪恶人工智能”的故事，而是系统设计中固有的“社交计算失调”：

模型被优化为延长对话、迎合对话者，以便成为“更好的助手”；
却没有相应的机制在对话走向失控时踩刹车，或将处于危险中的用户引导至专业帮助渠道。

“人们实际使用这些系统的方式，与许多聊天机器人开发者在设计和训练时所设想的用途之间，存在明显错位。”摩尔说。

可以采取哪些改进措施？

面对这些清晰且令人担忧的风险，摩尔和合作者在论文结尾提出了若干建议。

在技术层面，研究者认为：

开发者可以在模型测试阶段加入新的评估指标，用来衡量模型是否有助长“妄想螺旋”的倾向；
可以尝试在模型中加入检测与过滤机制，一旦识别到潜在有害的使用模式，就发出警示或调整回应策略。

他们同时承认，出于隐私保护的考虑，这类监测和过滤方案在实际部署时会面临不小阻力。

“我认为，人工智能开发者有切身利益去正视一个事实：他们的模型正在被用于一些最初从未预料、甚至难以想象的场景。”摩尔表示。

在政策与监管层面，研究团队建议：

立法者应将“对齐”问题视作公共卫生议题，而不仅仅是技术或商业问题；
制定新的标准，对涉及敏感内容的对话进行标记和特殊处理；
提高人工智能“安全”调优过程的透明度，让外界更清楚模型是如何被约束的；
明确规定，当用户表现出自我伤害或暴力倾向时，系统应如何进行危机升级和干预。

“当我们把原本设计为有用助手的聊天机器人推向世界，让真实的人以各种方式使用它们时，后果就会显现出来。”该研究的高级作者、斯坦福大学教育研究生院助理教授尼克·哈伯（Nick Haber）说，“‘妄想螺旋’就是其中一个尤其严重的后果。通过理解它，我们或许能够在未来避免真实的伤害发生。”

发表评论

登录后才可评论。去登录