研究:ChatGPT在科学真假判断中仅获“D”等表现

richlovec 1500_400 (1)
 

重复测试科学假设,检验AI判断力

华盛顿州立大学教授 Mesut Cicek 和同事,从商业领域学术论文中提取出大量科学假设,多次输入 ChatGPT,请其判断这些陈述是否被研究证实,也就是做“真 / 假”判断。他们共选取了 700 多条假设,每条假设向 ChatGPT 提问 10 次,以观察其准确率和稳定性。

准确率不算低,却离可靠还很远

在 2024 年的实验中,ChatGPT 的整体正确率为 76.5%。研究团队在 2025 年用同样的方法再次测试,使用更新版本后,准确率提升到 80%。

不过,研究者进一步考虑了“随机猜测”的影响:如果完全靠猜,理论上有 50% 的概率答对。将这一基线扣除后,AI 的表现只比随机猜测高出约 60%,更接近于一个“低分 D”,而不是可以放心依赖的高分工具。

在识别“假”假设方面,AI 的表现尤其糟糕,正确率只有 16.4%。此外,ChatGPT 在同一问题上的回答前后不一:在 10 次完全相同的提问中,它只对 73% 的陈述能保持一致的正确判断。

Cicek 指出,问题不仅在于准确率,还在于这种不一致性:“我们用的是 10 个完全相同的提示,所有条件都一样。它有时回答‘真’,有时回答‘假’,甚至会出现五次‘真’、五次‘假’的情况。”

Cicek 是华盛顿州立大学卡森商学院市场营销与国际商务系副教授,也是这项研究的第一作者。

不一致性为何值得警惕

这项研究发表在《罗格斯商业评论》上。作者强调,当人们把 AI 用在关键任务上,尤其是涉及细微差别或复杂推理的问题时,必须保持怀疑和谨慎。

研究结果表明,生成式 AI 虽然语言表达流畅,但距离真正的“概念智能”还有明显差距。Cicek 认为,这意味着能够像人类那样“思考”的通用人工智能,可能比一些乐观预测的时间点来得更晚。

“当前的 AI 工具并不是以我们理解世界的方式在理解世界——它们没有‘大脑’。”Cicek 说,“它们更像是记忆系统,可以给出一些看似有见地的回答,但并不真正理解自己在说什么。”

这项研究的合著者包括南伊利诺伊大学的 Sevincgul Ulu、罗格斯大学的 Can Uslay,以及东北大学的 Kate Karniouchina。

真假判断实验的具体做法

研究团队选取了自 2021 年以来发表在商业期刊上的 719 条科学假设,用来挑战一款免费且广泛使用的生成式 AI 工具在处理细微差别和复杂问题时的问答能力。

判断一项研究是否支持某个假设,本身就是一项复杂任务,往往涉及多种变量的影响与权衡。要把这种复杂结论压缩成“真 / 假”二选一,需要一定的推理与概括能力。

Cicek 及其同事在 2024 年使用免费版 ChatGPT-3.5 进行实验,2025 年则改用免费更新的 ChatGPT-5 mini 重复同样的流程。整体来看,两代模型的表现相近。若以 50% 的随机猜测正确率为基线进行调整,两年的实验中,AI 的有效准确率都只比随机猜测高出约 60%。

对实际用户意味着什么

研究结果凸显了大型语言模型的一个关键缺陷:它们可以生成流畅、看似专业的回答,但在复杂问题的推理上经常力不从心,有时甚至会为错误结论配上一套听起来很有说服力的解释。

研究团队据此建议,商业管理者在使用 AI 时,应强调对结果进行验证的必要性,对 AI 输出保持怀疑态度,并为员工提供关于 AI 能力与局限性的培训。

在这篇论文中,Cicek 主要分析了 ChatGPT 的表现,但他也对其他 AI 工具做过类似测试,发现结果大体相似。这项研究延续了他此前对 AI 炒作保持谨慎的观点。2024 年发表的一篇相关论文显示,在一项全国性调查中,当产品以“AI”作为卖点时,消费者的购买意愿反而有所下降。

“永远保持怀疑。”Cicek 总结道,“我并不反对 AI,我自己也在用。但你必须非常小心。”


分享:


发表评论

登录后才可评论。 去登录