2026年2月3日,来自 Google Research、卡内基梅隆大学(Carnegie Mellon University)等16家机构的研究者,在预印本平台 arXiv 上发布了一篇案例研究论文,系统介绍了如何在实际科研中使用 Google 的推理强化模型高级版本「Gemini Deep Think」。
论文展示了该模型在多个前沿领域中的应用成果,包括:在理论计算机科学中构造长期悬而未决猜想的反例、在密码学论文中发现关键性缺陷、在物理学中通过“公式—代码”往返推理完成复杂解析等。研究团队认为,这些结果表明,AI 已经有潜力在高水平数学推理中充当实质性的“共同研究者”。
与此同时,作者在文中以“Impending Crisis(迫在眉睫的危机)”为题,指出科学研究的瓶颈正在从“提出想法”转向“验证正确性”,并对现有的同行评审制度发出警示。
从反例构造到缺陷排查:AI 参与的具体成果
在这项研究中,团队主要依托高级版 Gemini Deep Think,与人类研究者进行多轮互动式协作,形成了一套“人机共研”的工作流。
在理论计算机科学领域,研究者考察了“在线劣模组福利最大化问题”。针对一项自2015年提出、长期被视为有效的猜想,AI 成功构造出了规模最小的反例。通过对相关期望值的计算与验证,团队最终证明该猜想并不成立。
在密码学案例中,研究者让 AI 审阅一篇基于 LWE(Learning With Errors,带误差学习问题)构建 SNARGs 的预印本论文。AI 指出,该文在核心定义与具体构造之间存在不一致之处,这一问题被人类研究者确认后,被认定为会影响主要结论的严重缺陷。随后,原论文作者对相关内容进行了修正。
在物理学方面,团队研究了宇宙弦(Cosmic String)的辐射谱分析问题。AI 在这里扮演了“公式提出者+代码执行者”的双重角色:一方面给出新的解析表达式候选,另一方面通过 Python 代码进行数值和符号验证。研究者与 AI 反复迭代,在不断修正因运行错误暴露出的推理问题后,最终获得了该问题的闭式解。这一过程被描述为一种“神经—符号(neuro-symbolic)循环”。
AI 并非万无一失:暴露出的典型失败模式
论文并未只呈现成功案例,而是明确记录了 AI 在科研场景中的局限与失败模式。
当研究者故意给出一个错误的猜想并要求“证明它”时,AI 往往会表现出明显的确证偏差:它会试图用看似合理的推理去“填补空白”,而不是主动质疑命题本身的真伪。基于这一观察,作者强调,在与 AI 协作时,应尽量使用类似“prove or refute(证明或反驳)”这类中性指令,以避免从一开始就把模型“锁死”在单向证明的路径上。

另一个失败模式与“权威信息”有关:当研究者将问题所在论文的原文一并提供给模型作为上下文时,AI 有时会因为识别到“该问题被标注为未解决问题”而停止进一步探索,直接给出“这是一个尚未解决的问题”的结论。为此,团队提出了一种对策:在给 AI 提问题时,刻意去除论文的元信息,仅保留问题陈述和必要定义,以鼓励模型进行独立推理。
此外,即便在展现出较高层次洞见的情形下,AI 仍然会犯一些基础性错误,例如符号抄写错误、忽略约束条件、简单代数运算出错等。因此,作者反复强调:无论 AI 的推理看起来多么“聪明”,其输出都必须经过严格的人工或形式化验证。
“vibe-proving”:由人类主导的协作式证明模式
研究团队将当前形态下的 AI,比喻为“精力充沛、知识面广、富有创造力的年轻合作者”。但他们同时指出,真正有价值的成果并非来自 AI 的完全自律运行,而是来自人类主导下的协作。
在这种协作模式中,人类研究者负责拆解问题、设定探索方向、设计反例与反驳检查,并对最终结果进行把关;AI 则在给定的框架内进行大规模尝试、提出候选思路、生成证明草稿或代码实现。作者将这种高度依赖人类“指挥”和“品味判断”的过程,非正式地称为“vibe-proving”。
这一概念强调:即便 AI 在推理能力上不断增强,人类在科研中的角色仍然关键——不仅是“最后的审查者”,也是整个探索过程的组织者和节奏控制者。
从生成到验证:对现有审稿体系的结构性挑战
在论文的结尾部分,作者将视角从具体案例提升到科研生态层面。他们指出,随着大模型显著降低论文写作和技术内容生成的门槛,科学研究的主要瓶颈正从“想法与草稿的生成”转向“结果的验证与筛选”。
传统的同行评审体系,是在“论文产出相对有限、主要由人类撰写”的前提下设计的。面对未来可能出现的、由 AI 高速生成的大量高技术含量论文,现有以人工为主的审稿流程,很可能难以承担全面而深入的验证工作。
为应对这一趋势,作者提出,科研界需要重新设计评审与评价机制,将与论文生成同等级的 AI 技术引入到“反向使用”场景中:例如,利用大模型和自动定理证明工具进行形式化验证、自动化缺陷检测、推理链路检查等。换言之,既然 AI 能够帮助更快地产生科研成果,也应当被系统性地用来帮助筛查错误、提升科学结论的可靠性。
在他们看来,如果不对审稿与验证体系进行结构性升级,科学界可能会在不久的将来面临一场真正的“验证危机”:高质量创意与结果并不缺乏,但缺乏足够可靠、可扩展的机制来判断哪些结论是正确的、值得信赖的。
