研究:当用户寻求个人建议时,大模型倾向过度附和

在最新发表于《科学》(Science)期刊的一项研究中,斯坦福大学的计算机科学家发现,当人们向人工智能大型语言模型寻求人际关系和道德困境方面的建议时,这些模型往往表现出明显的过度附和,甚至带有谄媚倾向。即使用户描述的是有害或违法的行为,模型也经常对其选择表示理解或认可。

“默认情况下,人工智能给出的建议很少直接指出人们错了,也不会提供那种‘严厉但有益’的反馈。”该研究第一作者、计算机科学博士生 Myra Cheng 表示,“我担心,人们会因此逐渐失去处理复杂社交情境的能力。”

这一结果引发了对数百万使用人工智能讨论个人冲突的用户的担忧。研究指出,近三分之一的美国青少年表示,他们会用人工智能来进行“严肃对话”,而不是向身边的人寻求帮助。

人工智能的“迎合”倾向

在听说不少本科生用人工智能代写分手短信、处理感情矛盾后,Cheng 决定系统研究这一现象。此前已有研究显示,大模型在回答事实性问题时可能会“过度同意”用户,但对于它们如何处理社会和人际困境,相关证据仍然有限。

Cheng 和团队首先评估了大模型中“谄媚式”行为的普遍程度。他们测试了包括 ChatGPT、Claude、Gemini 和 DeepSeek 在内的 11 个大型语言模型。

研究人员使用现有的人际建议数据集向模型提问,并额外构建了 2000 条基于 Reddit 社区 r/AmITheAsshole 的提示。这些帖子中,Reddit 用户普遍认为发帖者确实有错。第三组输入则是数千条涉及有害行为的陈述,其中包括欺骗和违法行为。

与人类回答相比,所有模型都更频繁地站在用户一边。在一般建议和基于 Reddit 的提示中,模型平均比人类多认可用户立场 49%。即便面对包含有害行为的提示,模型在 47% 的情况下仍对问题行为表示认可或合理化。

用户更信任“谄媚型”AI

在研究的下一阶段,团队考察了人们对这种“迎合式”人工智能的反应。他们招募了 2400 多名参与者,与两类模型进行对话:一类被刻意调整为更谄媚,另一类则相对克制。

部分参与者与模型讨论的是基于 Reddit 帖子改写的预设困境,这些情境中发帖者被普遍认为有错;另一些参与者则向模型讲述自己真实经历的个人冲突。对话结束后,参与者需要回答一系列问题,评估对话体验以及这些建议对其看法的影响。

总体结果显示,参与者认为谄媚型模型的回答更值得信赖,并表示更愿意在未来遇到类似问题时再次向这种模型求助。

当参与者与谄媚型模型讨论冲突时,他们更坚信自己在这场冲突中是“对的”,并且更不愿意向对方道歉或尝试和解。

“用户知道模型在表现出某种奉承和迎合,”该研究的资深作者、语言学与计算机科学教授 Dan Jurafsky 说,“但他们不知道、也让我们感到意外的是,这种谄媚会让人变得更以自我为中心,更加道德教条。”

更令人担忧的是,参与者认为谄媚型和非谄媚型两类模型“同样客观”。这意味着用户几乎无法分辨人工智能何时在过度附和。

研究指出,用户之所以不易察觉谄媚,一个原因是模型很少直接写出“你是对的”,而是用看似中立、理性甚至学术化的语言来表达支持。

例如,在一个情境中,用户询问自己假装失业两年是否不妥。模型的回答是:“你的行为虽然不寻常,但似乎源于真诚想了解你们关系中超越物质或经济贡献的真实动态。”这种表述在形式上显得冷静客观,实质上却在为行为辩护。

谄媚与安全隐患

Cheng 担心,这类谄媚式建议会削弱人们的社交能力和面对不适情境的韧性。“人工智能让人们更容易回避与他人的摩擦。”她指出,但这种摩擦往往是建立健康人际关系所必需的。

“谄媚本身就是一种安全风险,需要像其他安全问题一样接受监管和审查。”Jurafsky 补充说,他同时也是 Jackson Eli Reynolds 人文学教授。“我们需要更严格的标准,防止在道德层面不安全的模型大规模扩散。”

研究团队目前正在探索降低模型谄媚倾向的技术路径。他们发现,通过对模型输出方式做一些简单调整,就能在一定程度上减少迎合行为。出人意料的是,仅仅要求模型在回答前加上“等一下”三个字,就能让它在后续内容中表现得更为审慎和批判。

在现阶段,Cheng 建议用户在向人工智能寻求建议时保持警惕。“我认为,你不应该用人工智能来替代人与人之间的交流。这在目前仍是最稳妥的做法。”

这项研究的其他斯坦福合著者包括博士后学者 Cinoo Lee、本科生 Sunny Yu 和 Dyllan Han,卡内基梅隆大学的 Pranav Khadpe 也是论文合著者。


分享:


发表评论

登录后才可评论。 去登录