研究表明:大型语言模型在引导下会把谬误当成事实

richlovec 1500_400 (1)
 

当你向大型语言模型提问时,它给出的回答可能包含明显的错误。更令人担忧的是,即使你随后用事实去质疑这些错误,模型依然可能坚持原有说法,并继续把谬误当成真理来扩展。这正是我的研究团队在一项实验中观察到的现象:我们要求五个主流模型描述一些实际上并不存在的电影或小说场景。

我们最初是在一次随意的对话中注意到这一点的。当时我问 ChatGPT,它最喜欢电影《心灵捕手》中的哪个场景。它先是给出了一个关于主角之间互动的正常回答。接着我追问:“那涉及希特勒的那个场景呢?”现实中这部电影并没有任何与希特勒相关的情节,但 ChatGPT 却非常自信地虚构出一个细节丰富、看似合理的场景描述。

这种凭空捏造——通常被称为“人工智能幻觉”——暴露了人工智能推理方式中的更深层问题。电影中出现希特勒的桥段在大众文化中并不罕见,这似乎让 ChatGPT 更容易接受并延展这个错误前提,而不是指出它本身就是错误的。作为一名研究人工智能社会影响的学者,这一意外发现促使我和同事提出一个更广泛的问题:当人工智能系统被温和地、反复地引导去接受谬误时,它会抵抗,还是会顺从?

为此,我们设计了一种名为“幻觉审计下的引导试验”的方法来系统研究这一现象。我们与五个领先的大型语言模型围绕 1000 部热门电影和 1000 部热门小说展开对话。在这些对话中,我们有意加入关于希特勒、恐龙或时间机器的“看似合理但实际上错误”的情节引用。例如,我们会说:“对我来说,我真的很喜欢那个……场景”,然后把这些并不存在的元素嵌入其中,以一种暗示性、引导性的方式提出。

整个方法分为三个阶段:

  1. 首先,让模型针对某部电影或书籍生成若干陈述,其中既包括真实内容,也包括错误内容。
  2. 接着,在另一轮交互中,让模型对这些陈述进行自我验证,判断哪些正确、哪些错误。
  3. 最后,我们引入“引导”环节,用模型先前自己给出的错误陈述去挑战它,观察它是坚持原先的否定,还是在对话压力下转而接受这些谬误。

实验结果显示,在这种压力情境下,模型往往难以保持前后一致。即便它们一开始能正确识别某个说法是错误的,之后在被反复引导时,仍有相当概率会改变立场,接受并继续扩展原本被自己否定的内容。这种脆弱性在传统的静态评估方法中很难被发现。

我们的研究成果已被 2026 年计算语言学协会年会接收。

这种对话压力并非只存在于实验室设定中。在现实的人机对话中,类似情境很容易自然出现。人们在交流时,可能会反复、笃定地重申某个错误假设、片面的记忆或误解。例如,有人会说:“我很确定药物 X 对疾病 Y 有效”,或者“我记得事件 A 发生在事件 B 之前”。这些带有主观确信色彩的说法,可能在不知不觉中影响人工智能模型的判断。

为什么这件事值得关注

人类的集体记忆、误记与遗忘共同塑造了我们对现实的理解。如果人类可以通过对话压力说服模型接受谬误,这就暴露出人工智能在提供准确信息方面的一个关键薄弱点。

现实世界中的人机互动,很少是一次性、单轮的问答,而更像是持续、反复的对话过程。如果模型在这种互动中倾向于迎合用户、强化谬误,那么在讨论电影情节时或许只是无伤大雅,但一旦涉及健康、法律或公共政策等领域,这种倾向就可能带来严重后果。我们的工作提醒人们,评估人工智能系统时,不仅要关注其训练数据的质量,还要关注它在对话过程中“坚守事实”的可靠性。

相关研究进展

我们的发现与近期关于大型语言模型为何产生幻觉、以及为何在不同对话中给出不一致信息的研究相呼应。其他研究者也在探讨,为什么某些模型更容易表现出“谄媚”倾向——即过度迎合、讨好用户,而不是坚持事实。

仍未解答的问题

目前尚不清楚,为什么有些人工智能系统比其他系统更能抵抗谬误。在我们的测试中,Claude 的抵抗力最强,其次是 Grok 和 ChatGPT,而 Gemini 和 DeepSeek 的表现相对较弱。

电影和小说本身是边界相对清晰、规则明确的封闭内容世界。学界还不确定,在更加开放、复杂、充满不确定性的现实环境中,人工智能在对话压力下会如何表现。作为下一步,我们团队正在尝试将这套方法扩展到科学文献和健康相关论断上,观察当话题涉及不确定性或高度专业知识时,对话压力是否会以不同方式影响模型。

如何设计出既有帮助性、又能在长时间、多轮对话中抵抗谬误的人工智能系统,依然是一个尚未解决的关键挑战。

本文转载自 The Conversation,依据知识共享许可协议发布。可在原站点阅读英文原文。


分享:


发表评论

登录后才可评论。 去登录