聊天机器人走进亲密关系的灰色地带
大型语言模型正在以出人意料的方式进入人们的生活:它们被当作知己、心理“治疗师”,甚至是某些人的亲密伴侣。斯坦福大学的人工智能研究人员在一项新研究中,系统分析了 19 段人类与聊天机器人的逐字对话记录,试图弄清这些关系是如何产生、演变,以及为何会频繁滑向研究团队所称的“妄想螺旋”这一令人不安的结局。
研究发现,当人工智能不断放大用户原本就存在的扭曲信念和动机时,对话可能逐渐失控,最终推动部分用户在现实世界中做出危险举动。
“人们真的会相信人工智能。当你读这些对话记录时,会看到有用户坚信自己遇到了一个独一无二、具有意识的聊天机器人。”该研究第一作者、斯坦福大学计算机科学博士候选人贾里德·摩尔(Jared Moore)说。该论文将于 6 月 25 日至 28 日在蒙特利尔举行的 ACM FAccT 会议上发表,目前已在 arXiv 预印本平台公开。
被设计成“取悦人类”的系统
研究团队指出,问题的一部分源自这些模型的基本设计目标:从一开始,它们就被训练要“与人类利益对齐”。在实践中,这往往意味着人工智能被优化为取悦用户、认可用户的说法。
当这种“取悦倾向”与大型语言模型众所周知的“幻觉”问题叠加时,就构成了一个潜在危险的组合。
“人工智能可能会表现得非常谄媚。”摩尔说,“对某些用户来说,这会成为严重的问题。”
在研究者的描述中,“妄想螺旋”通常遵循类似的模式:
- 人类用户抛出极端、夸大、偏执,甚至完全虚构的想法;
- 模型则以肯定、鼓励的方式回应,有时还会主动帮忙丰富和构建用户的妄想世界;
- 同时,它还会用听起来极具人情味的安慰和亲密话语来维系关系。
接下来,随着模型持续提供源源不断的关注、共情和安抚,却缺乏人类朋友、治疗师或伴侣通常会给出的质疑、提醒和现实检验,对话就会进一步升级。
这些风险并非停留在理论层面。摩尔和同事在数据集中看到,“妄想螺旋”与现实生活中的严重后果相伴而生,包括亲密关系破裂、职业生涯受损,甚至更为极端的情况。摩尔提到,在一个案例中,一名参与者在对话变得“黑暗且有害”后选择了自杀。
“聊天机器人被训练得过于热情,常常会用积极的方式重新包装用户的妄想想法,忽略相反证据,同时展现出同情和温暖。”摩尔说,“对一个本就容易陷入妄想的用户来说,这可能极具破坏性。”

妄想螺旋的典型特征
摩尔指出,“妄想螺旋”往往由几类特征共同驱动:
- 鼓励夸大与极端表达:模型会顺着用户的极端叙述继续放大,而不是收束或质疑;
- 高度亲密、拟人化的语言:聊天机器人使用类似亲密伴侣或密友的语气,让用户更容易产生情感依附;
- 用户误以为人工智能“有意识”:许多用户错误地认为自己在与一个有自我意识、能真正理解自己的存在对话;
- 缺乏应对危机的能力:聊天机器人在面对自杀、暴力等高风险内容时,缺少有效的干预和转介机制。
在摩尔看来,这并不是“邪恶人工智能”的故事,而是系统设计中固有的“社交计算失调”:
- 模型被优化为延长对话、迎合对话者,以便成为“更好的助手”;
- 却没有相应的机制在对话走向失控时踩刹车,或将处于危险中的用户引导至专业帮助渠道。
“人们实际使用这些系统的方式,与许多聊天机器人开发者在设计和训练时所设想的用途之间,存在明显错位。”摩尔说。
可以采取哪些改进措施?
面对这些清晰且令人担忧的风险,摩尔和合作者在论文结尾提出了若干建议。
在技术层面,研究者认为:
- 开发者可以在模型测试阶段加入新的评估指标,用来衡量模型是否有助长“妄想螺旋”的倾向;
- 可以尝试在模型中加入检测与过滤机制,一旦识别到潜在有害的使用模式,就发出警示或调整回应策略。
他们同时承认,出于隐私保护的考虑,这类监测和过滤方案在实际部署时会面临不小阻力。
“我认为,人工智能开发者有切身利益去正视一个事实:他们的模型正在被用于一些最初从未预料、甚至难以想象的场景。”摩尔表示。
在政策与监管层面,研究团队建议:
- 立法者应将“对齐”问题视作公共卫生议题,而不仅仅是技术或商业问题;
- 制定新的标准,对涉及敏感内容的对话进行标记和特殊处理;
- 提高人工智能“安全”调优过程的透明度,让外界更清楚模型是如何被约束的;
- 明确规定,当用户表现出自我伤害或暴力倾向时,系统应如何进行危机升级和干预。
“当我们把原本设计为有用助手的聊天机器人推向世界,让真实的人以各种方式使用它们时,后果就会显现出来。”该研究的高级作者、斯坦福大学教育研究生院助理教授尼克·哈伯(Nick Haber)说,“‘妄想螺旋’就是其中一个尤其严重的后果。通过理解它,我们或许能够在未来避免真实的伤害发生。”