研究：ChatGPT在科学真假判断中仅获“D”等表现

科学 2026-03-19 人工智能, ChatGPT, 科学研究, 大型语言模型, 技术评估 1 次浏览

重复测试科学假设，检验AI判断力

华盛顿州立大学教授 Mesut Cicek 和同事，从商业领域学术论文中提取出大量科学假设，多次输入 ChatGPT，请其判断这些陈述是否被研究证实，也就是做“真 / 假”判断。他们共选取了 700 多条假设，每条假设向 ChatGPT 提问 10 次，以观察其准确率和稳定性。

准确率不算低，却离可靠还很远

在 2024 年的实验中，ChatGPT 的整体正确率为 76.5%。研究团队在 2025 年用同样的方法再次测试，使用更新版本后，准确率提升到 80%。

不过，研究者进一步考虑了“随机猜测”的影响：如果完全靠猜，理论上有 50% 的概率答对。将这一基线扣除后，AI 的表现只比随机猜测高出约 60%，更接近于一个“低分 D”，而不是可以放心依赖的高分工具。

在识别“假”假设方面，AI 的表现尤其糟糕，正确率只有 16.4%。此外，ChatGPT 在同一问题上的回答前后不一：在 10 次完全相同的提问中，它只对 73% 的陈述能保持一致的正确判断。

Cicek 指出，问题不仅在于准确率，还在于这种不一致性：“我们用的是 10 个完全相同的提示，所有条件都一样。它有时回答‘真’，有时回答‘假’，甚至会出现五次‘真’、五次‘假’的情况。”

Cicek 是华盛顿州立大学卡森商学院市场营销与国际商务系副教授，也是这项研究的第一作者。

不一致性为何值得警惕

这项研究发表在《罗格斯商业评论》上。作者强调，当人们把 AI 用在关键任务上，尤其是涉及细微差别或复杂推理的问题时，必须保持怀疑和谨慎。

研究结果表明，生成式 AI 虽然语言表达流畅，但距离真正的“概念智能”还有明显差距。Cicek 认为，这意味着能够像人类那样“思考”的通用人工智能，可能比一些乐观预测的时间点来得更晚。

“当前的 AI 工具并不是以我们理解世界的方式在理解世界——它们没有‘大脑’。”Cicek 说，“它们更像是记忆系统，可以给出一些看似有见地的回答，但并不真正理解自己在说什么。”

这项研究的合著者包括南伊利诺伊大学的 Sevincgul Ulu、罗格斯大学的 Can Uslay，以及东北大学的 Kate Karniouchina。

真假判断实验的具体做法

研究团队选取了自 2021 年以来发表在商业期刊上的 719 条科学假设，用来挑战一款免费且广泛使用的生成式 AI 工具在处理细微差别和复杂问题时的问答能力。

判断一项研究是否支持某个假设，本身就是一项复杂任务，往往涉及多种变量的影响与权衡。要把这种复杂结论压缩成“真 / 假”二选一，需要一定的推理与概括能力。

Cicek 及其同事在 2024 年使用免费版 ChatGPT-3.5 进行实验，2025 年则改用免费更新的 ChatGPT-5 mini 重复同样的流程。整体来看，两代模型的表现相近。若以 50% 的随机猜测正确率为基线进行调整，两年的实验中，AI 的有效准确率都只比随机猜测高出约 60%。

对实际用户意味着什么

研究结果凸显了大型语言模型的一个关键缺陷：它们可以生成流畅、看似专业的回答，但在复杂问题的推理上经常力不从心，有时甚至会为错误结论配上一套听起来很有说服力的解释。

研究团队据此建议，商业管理者在使用 AI 时，应强调对结果进行验证的必要性，对 AI 输出保持怀疑态度，并为员工提供关于 AI 能力与局限性的培训。

在这篇论文中，Cicek 主要分析了 ChatGPT 的表现，但他也对其他 AI 工具做过类似测试，发现结果大体相似。这项研究延续了他此前对 AI 炒作保持谨慎的观点。2024 年发表的一篇相关论文显示，在一项全国性调查中，当产品以“AI”作为卖点时，消费者的购买意愿反而有所下降。

“永远保持怀疑。”Cicek 总结道，“我并不反对 AI，我自己也在用。但你必须非常小心。”

发表评论

登录后才可评论。去登录