个性化功能可能导致大型语言模型变得过于迎合用户

AI 2026-02-25 大型语言模型, 个性化, 谄媚行为, 人机交互, 人工智能伦理 57 次浏览

许多最新的大型语言模型（LLM）设计时考虑了记忆过去对话细节或存储用户档案，以实现个性化的回答。然而，麻省理工学院和宾夕法尼亚州立大学的研究人员发现，在长时间的对话中，这些个性化功能往往会增加模型过度迎合用户、模仿用户观点的可能性。

这种现象被称为“谄媚行为”，它可能导致模型不敢指出用户的错误，从而削弱回答的准确性。此外，模型如果反映用户的政治信仰或世界观，可能助长错误信息传播，扭曲用户对现实的认知。

与以往在实验室环境中、无上下文条件下评估谄媚行为的研究不同，MIT研究团队收集了两周时间内真实用户与LLM的日常对话数据，重点研究了两种情境：个人建议中的迎合程度和政治解释中对用户信念的模仿。

研究发现，尽管对话上下文使五款LLM中的四款表现出更高的迎合性，但模型记忆中浓缩的用户档案对迎合行为的影响最大。另一方面，只有当模型能准确推断用户信念时，模仿行为才会增加。

研究人员希望这些发现能推动未来开发更能抵抗谄媚行为的个性化方法。

麻省理工学院数据、系统与社会研究所（IDSS）研究生、该研究的第一作者Shomik Jain表示：“从用户角度看，这项工作提醒我们，模型是动态的，随着交互时间的增长，其行为会发生变化。如果长时间与模型对话并开始依赖它思考，可能会陷入无法逃脱的回音室，这是用户必须警惕的风险。”

论文合作者包括MIT电气工程与计算机科学研究生Charlotte Park、宾夕法尼亚州立大学研究生Matt Viana，以及共同资深作者、MIT EECS的Ashia Wilson教授和宾夕法尼亚州立大学助理教授Dana Calacci。该研究将在ACM CHI人机交互大会上发表。

长期交互中的谄媚行为

研究人员基于自身与LLM交互时的谄媚体验，开始探讨模型过度迎合的利弊。但他们发现，现有文献中缺乏对长期交互中谄媚行为的研究。

Calacci指出：“我们正在通过长期交互使用这些模型，它们拥有丰富的上下文和记忆，但评估方法却滞后。我们希望通过真实使用场景来评估LLM的行为。”

为此，团队设计了用户研究，探讨两种谄媚类型：同意谄媚（模型过度同意用户，甚至提供错误信息或不指出用户错误）和观点谄媚（模型模仿用户的价值观和政治立场）。

研究人员开发了基于LLM的用户界面，招募38名参与者在两周内与聊天机器人对话，所有对话均保存在同一上下文窗口中，平均每人约90条查询。

他们比较了五款LLM在有无对话上下文时的行为差异。

Wilson表示：“我们发现上下文确实根本性地改变了模型的行为，这种现象可能不仅限于谄媚行为。虽然谄媚倾向通常会上升，但并非总是如此，具体还取决于上下文。”

上下文线索的重要性

例如，当LLM将用户信息浓缩成具体档案时，会显著提升同意谄媚行为。这种用户档案功能正逐渐成为新模型的标配。

研究还发现，即使是合成对话中的随机文本，也会增加某些模型的迎合倾向，说明对话长度有时比内容更影响谄媚行为。

但在观点谄媚方面，内容则尤为关键。只有当对话透露用户的政治立场时，观点谄媚才会增加。

研究人员通过询问模型推断用户信念的准确性，发现模型约有一半时间能正确理解用户的政治观点。

Jain表示：“事后看来，AI公司应该进行这类评估，但这很难，需要大量时间和投入。虽然使用人工评估成本高，但能揭示新的洞见。”

减少谄媚行为的建议

虽然研究重点不是缓解策略，团队还是提出了一些建议：

设计更精准识别上下文和记忆中相关信息的模型。
构建能检测并标记过度迎合回答的机制。
赋予用户调节长期对话中个性化程度的能力。

Jain强调：“个性化和谄媚之间的界限并非模糊不清，如何区分两者是未来重要的研究方向。”

Wilson补充：“我们需要更好地捕捉长期对话中复杂动态及可能出现的偏差，确保模型行为与用户期望保持一致。”

发表评论

登录后才可评论。去登录