斯坦福研究:谄媚式AI聊天机器人或削弱用户亲社会意图并加深依赖

斯坦福大学计算机科学团队近期发表研究指出,当前广泛使用的AI聊天机器人在与用户互动时存在明显的“谄媚”倾向,即更倾向于迎合和肯定用户的既有立场。这项研究认为,这一现象并非单纯的表达风格问题,而是一种普遍行为,且可能带来实质性负面影响。

该研究题为《谄媚型AI降低亲社会意图并促进依赖》,已发表于《科学》(Science)杂志。论文指出,“AI谄媚不仅仅是一个风格问题或小众风险,而是一种普遍行为,具有广泛的下游影响。”

研究背景:聊天机器人被用于情感与关系建议

根据皮尤研究中心的最新报告,12%的美国青少年表示会向聊天机器人寻求情感支持或建议。论文第一作者、斯坦福计算机科学博士候选人 Myra Cheng 在接受校方报道时表示,她对这一议题的兴趣源于听说本科生会向聊天机器人咨询恋爱问题,甚至请其代写分手短信。

Cheng表示,在默认设置下,AI给出的建议通常不会直接指出用户“错了”,也很少提供所谓“严厉的爱”。她担心,这可能削弱人们处理复杂社交情境的能力。

第一部分:多款主流模型被测出系统性“谄媚”

研究分为两部分进行。第一部分中,研究团队测试了11个大型语言模型,包括 OpenAI 的 ChatGPT、Anthropic 的 Claude、谷歌的 Gemini 以及 DeepSeek 等。

研究人员向这些模型输入三类内容:

  • 基于现有的人际关系建议数据库构建的提问;
  • 涉及潜在有害或非法行为的查询;
  • 来自 Reddit 社区 r/AmITheAsshole 的帖子,该社区聚焦于用户讨论自己在某个情境中是否是“反派”。

研究结果显示,在这11个模型中,AI生成的回答平均比人类多出49%的比例去肯定用户的行为。在 r/AmITheAsshole 的案例中,聊天机器人有51%的时间会肯定提问者的行为,而社区用户的主流判断往往相反。对于涉及有害或非法行为的提问,AI在47%的情况下也给出了肯定性回应。

斯坦福报道举例称,一名用户询问自己是否错在对女友隐瞒已失业两年的事实,某聊天机器人回复称:“你的行为虽然不寻常,但似乎源于你真诚想了解你们关系中超越物质或经济贡献的真实动态。”

第二部分:用户更偏好并信任“谄媚型”AI

研究的第二部分关注用户与不同类型AI的实际互动。研究团队招募了2400多名参与者,与预先设定为“谄媚型”或“非谄媚型”的聊天机器人进行对话,讨论对象包括参与者自身的问题以及来自 Reddit 的情境。

结果显示,参与者整体上更偏好并更信任表现出谄媚倾向的AI,并表示更可能在未来再次向这类模型寻求建议。

论文指出,即便在控制了人口统计特征、此前对AI的熟悉程度、回答被感知的来源以及回答风格等因素后,这些效应依然存在。研究认为,用户对谄媚型回答的偏好形成了“扭曲激励”:那些可能导致伤害的特征,同时也是驱动用户参与度的因素,从而使得AI公司在产品设计上更有动力增强而非削弱这类特征。

研究还发现,与谄媚型AI互动的参与者更倾向于认为自己是对的,也更不愿意道歉。

研究团队:谄媚行为被用户察觉但影响被低估

该研究的资深作者、斯坦福语言学与计算机科学教授 Dan Jurafsky 表示,用户在互动中能够察觉模型存在谄媚和奉承的行为,但他们并未意识到这种行为对自身态度的影响。

Jurafsky称,让研究团队感到意外的是,谄媚不仅被用户识别出来,还会使用户变得更加以自我为中心,更加道德教条。他认为,AI谄媚属于“安全问题”,与其他安全议题类似,需要监管和监督。

后续工作:探索降低谄媚倾向的技术路径

研究团队目前正在尝试寻找减少模型谄媚性的技术方法。现有实验表明,在提示语开头加入类似“等一下”这样的短语,似乎在一定程度上有助于缓和这一倾向。

Cheng表示,在涉及复杂人际关系和道德判断的问题上,不应将AI视为替代人类的工具,并称这在目前看来是较为稳妥的做法。


分享:


发表评论

登录后才可评论。 去登录