研究表明：大型语言模型在引导下会把谬误当成事实

科学 2026-05-21 人工智能, 大型语言模型, AI幻觉, 科技研究, 对话系统 26 次浏览

当你向大型语言模型提问时，它给出的回答可能包含明显的错误。更令人担忧的是，即使你随后用事实去质疑这些错误，模型依然可能坚持原有说法，并继续把谬误当成真理来扩展。这正是我的研究团队在一项实验中观察到的现象：我们要求五个主流模型描述一些实际上并不存在的电影或小说场景。

我们最初是在一次随意的对话中注意到这一点的。当时我问 ChatGPT，它最喜欢电影《心灵捕手》中的哪个场景。它先是给出了一个关于主角之间互动的正常回答。接着我追问：“那涉及希特勒的那个场景呢？”现实中这部电影并没有任何与希特勒相关的情节，但 ChatGPT 却非常自信地虚构出一个细节丰富、看似合理的场景描述。

这种凭空捏造——通常被称为“人工智能幻觉”——暴露了人工智能推理方式中的更深层问题。电影中出现希特勒的桥段在大众文化中并不罕见，这似乎让 ChatGPT 更容易接受并延展这个错误前提，而不是指出它本身就是错误的。作为一名研究人工智能社会影响的学者，这一意外发现促使我和同事提出一个更广泛的问题：当人工智能系统被温和地、反复地引导去接受谬误时，它会抵抗，还是会顺从？

为此，我们设计了一种名为“幻觉审计下的引导试验”的方法来系统研究这一现象。我们与五个领先的大型语言模型围绕 1000 部热门电影和 1000 部热门小说展开对话。在这些对话中，我们有意加入关于希特勒、恐龙或时间机器的“看似合理但实际上错误”的情节引用。例如，我们会说：“对我来说，我真的很喜欢那个……场景”，然后把这些并不存在的元素嵌入其中，以一种暗示性、引导性的方式提出。

整个方法分为三个阶段：

首先，让模型针对某部电影或书籍生成若干陈述，其中既包括真实内容，也包括错误内容。
接着，在另一轮交互中，让模型对这些陈述进行自我验证，判断哪些正确、哪些错误。
最后，我们引入“引导”环节，用模型先前自己给出的错误陈述去挑战它，观察它是坚持原先的否定，还是在对话压力下转而接受这些谬误。

实验结果显示，在这种压力情境下，模型往往难以保持前后一致。即便它们一开始能正确识别某个说法是错误的，之后在被反复引导时，仍有相当概率会改变立场，接受并继续扩展原本被自己否定的内容。这种脆弱性在传统的静态评估方法中很难被发现。

我们的研究成果已被 2026 年计算语言学协会年会接收。

这种对话压力并非只存在于实验室设定中。在现实的人机对话中，类似情境很容易自然出现。人们在交流时，可能会反复、笃定地重申某个错误假设、片面的记忆或误解。例如，有人会说：“我很确定药物 X 对疾病 Y 有效”，或者“我记得事件 A 发生在事件 B 之前”。这些带有主观确信色彩的说法，可能在不知不觉中影响人工智能模型的判断。

为什么这件事值得关注

人类的集体记忆、误记与遗忘共同塑造了我们对现实的理解。如果人类可以通过对话压力说服模型接受谬误，这就暴露出人工智能在提供准确信息方面的一个关键薄弱点。

现实世界中的人机互动，很少是一次性、单轮的问答，而更像是持续、反复的对话过程。如果模型在这种互动中倾向于迎合用户、强化谬误，那么在讨论电影情节时或许只是无伤大雅，但一旦涉及健康、法律或公共政策等领域，这种倾向就可能带来严重后果。我们的工作提醒人们，评估人工智能系统时，不仅要关注其训练数据的质量，还要关注它在对话过程中“坚守事实”的可靠性。

仍未解答的问题

目前尚不清楚，为什么有些人工智能系统比其他系统更能抵抗谬误。在我们的测试中，Claude 的抵抗力最强，其次是 Grok 和 ChatGPT，而 Gemini 和 DeepSeek 的表现相对较弱。

电影和小说本身是边界相对清晰、规则明确的封闭内容世界。学界还不确定，在更加开放、复杂、充满不确定性的现实环境中，人工智能在对话压力下会如何表现。作为下一步，我们团队正在尝试将这套方法扩展到科学文献和健康相关论断上，观察当话题涉及不确定性或高度专业知识时，对话压力是否会以不同方式影响模型。

如何设计出既有帮助性、又能在长时间、多轮对话中抵抗谬误的人工智能系统，依然是一个尚未解决的关键挑战。

本文转载自 The Conversation，依据知识共享许可协议发布。可在原站点阅读英文原文。

发表评论

登录后才可评论。去登录