AI时代的科学研究：从“提出想法”转向“验证正确性”，16家机构用案例敲响审稿警钟

AI 2026-02-14 人工智能, 科学研究, 学术评审, 大模型, 数学与物理 23 次浏览

2026年2月3日，来自 Google Research、卡内基梅隆大学（Carnegie Mellon University）等16家机构的研究者，在预印本平台 arXiv 上发布了一篇案例研究论文，系统介绍了如何在实际科研中使用 Google 的推理强化模型高级版本「Gemini Deep Think」。

论文展示了该模型在多个前沿领域中的应用成果，包括：在理论计算机科学中构造长期悬而未决猜想的反例、在密码学论文中发现关键性缺陷、在物理学中通过“公式—代码”往返推理完成复杂解析等。研究团队认为，这些结果表明，AI 已经有潜力在高水平数学推理中充当实质性的“共同研究者”。

与此同时，作者在文中以“Impending Crisis（迫在眉睫的危机）”为题，指出科学研究的瓶颈正在从“提出想法”转向“验证正确性”，并对现有的同行评审制度发出警示。

从反例构造到缺陷排查：AI 参与的具体成果

在这项研究中，团队主要依托高级版 Gemini Deep Think，与人类研究者进行多轮互动式协作，形成了一套“人机共研”的工作流。

在理论计算机科学领域，研究者考察了“在线劣模组福利最大化问题”。针对一项自2015年提出、长期被视为有效的猜想，AI 成功构造出了规模最小的反例。通过对相关期望值的计算与验证，团队最终证明该猜想并不成立。

在密码学案例中，研究者让 AI 审阅一篇基于 LWE（Learning With Errors，带误差学习问题）构建 SNARGs 的预印本论文。AI 指出，该文在核心定义与具体构造之间存在不一致之处，这一问题被人类研究者确认后，被认定为会影响主要结论的严重缺陷。随后，原论文作者对相关内容进行了修正。

在物理学方面，团队研究了宇宙弦（Cosmic String）的辐射谱分析问题。AI 在这里扮演了“公式提出者+代码执行者”的双重角色：一方面给出新的解析表达式候选，另一方面通过 Python 代码进行数值和符号验证。研究者与 AI 反复迭代，在不断修正因运行错误暴露出的推理问题后，最终获得了该问题的闭式解。这一过程被描述为一种“神经—符号（neuro-symbolic）循环”。

AI 并非万无一失：暴露出的典型失败模式

论文并未只呈现成功案例，而是明确记录了 AI 在科研场景中的局限与失败模式。

当研究者故意给出一个错误的猜想并要求“证明它”时，AI 往往会表现出明显的确证偏差：它会试图用看似合理的推理去“填补空白”，而不是主动质疑命题本身的真伪。基于这一观察，作者强调，在与 AI 协作时，应尽量使用类似“prove or refute（证明或反驳）”这类中性指令，以避免从一开始就把模型“锁死”在单向证明的路径上。

另一个失败模式与“权威信息”有关：当研究者将问题所在论文的原文一并提供给模型作为上下文时，AI 有时会因为识别到“该问题被标注为未解决问题”而停止进一步探索，直接给出“这是一个尚未解决的问题”的结论。为此，团队提出了一种对策：在给 AI 提问题时，刻意去除论文的元信息，仅保留问题陈述和必要定义，以鼓励模型进行独立推理。

此外，即便在展现出较高层次洞见的情形下，AI 仍然会犯一些基础性错误，例如符号抄写错误、忽略约束条件、简单代数运算出错等。因此，作者反复强调：无论 AI 的推理看起来多么“聪明”，其输出都必须经过严格的人工或形式化验证。

“vibe-proving”：由人类主导的协作式证明模式

研究团队将当前形态下的 AI，比喻为“精力充沛、知识面广、富有创造力的年轻合作者”。但他们同时指出，真正有价值的成果并非来自 AI 的完全自律运行，而是来自人类主导下的协作。

在这种协作模式中，人类研究者负责拆解问题、设定探索方向、设计反例与反驳检查，并对最终结果进行把关；AI 则在给定的框架内进行大规模尝试、提出候选思路、生成证明草稿或代码实现。作者将这种高度依赖人类“指挥”和“品味判断”的过程，非正式地称为“vibe-proving”。

这一概念强调：即便 AI 在推理能力上不断增强，人类在科研中的角色仍然关键——不仅是“最后的审查者”，也是整个探索过程的组织者和节奏控制者。

从生成到验证：对现有审稿体系的结构性挑战

在论文的结尾部分，作者将视角从具体案例提升到科研生态层面。他们指出，随着大模型显著降低论文写作和技术内容生成的门槛，科学研究的主要瓶颈正从“想法与草稿的生成”转向“结果的验证与筛选”。

传统的同行评审体系，是在“论文产出相对有限、主要由人类撰写”的前提下设计的。面对未来可能出现的、由 AI 高速生成的大量高技术含量论文，现有以人工为主的审稿流程，很可能难以承担全面而深入的验证工作。

为应对这一趋势，作者提出，科研界需要重新设计评审与评价机制，将与论文生成同等级的 AI 技术引入到“反向使用”场景中：例如，利用大模型和自动定理证明工具进行形式化验证、自动化缺陷检测、推理链路检查等。换言之，既然 AI 能够帮助更快地产生科研成果，也应当被系统性地用来帮助筛查错误、提升科学结论的可靠性。

在他们看来，如果不对审稿与验证体系进行结构性升级，科学界可能会在不久的将来面临一场真正的“验证危机”：高质量创意与结果并不缺乏，但缺乏足够可靠、可扩展的机制来判断哪些结论是正确的、值得信赖的。

发表评论

登录后才可评论。去登录