信心往往极具说服力,但在人工智能系统中,它经常是误导性的。当前最强大的推理模型有一个共同特征:无论答案是严谨推理得出还是纯属猜测,它们几乎总是以同样笃定的口吻作答。麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员追溯了这种“过度自信”的根源,发现问题出在训练过程中的一个具体缺陷,并提出了一种在不牺牲准确率的前提下进行修正的新方法。相关论文已发布在 arXiv 预印本平台,并将于本月晚些时候在国际学习表征会议(ICLR)上正式发表。
研究团队提出的技术名为 RLCR(Reinforcement Learning with Calibrated Rewards,带校准奖励的强化学习)。它的核心思路是:在训练语言模型时,不仅要求模型给出答案,还要同时输出与该答案相匹配的置信度估计。也就是说,模型在回答问题的同时,需要评估自己对这个答案有多确定,并给出一个置信度分数。
在多个标准基准测试中,RLCR 将模型的校准误差最多降低了 90%,同时保持甚至提升了模型的整体准确率。这一效果不仅出现在模型见过的任务上,在完全未参与训练的新任务上也同样成立。
问题的根源其实非常直接。近年来推动 AI 推理能力飞跃的强化学习(RL)方法——包括 OpenAI o1 系统采用的训练范式——通常只对“对”与“错”进行奖励或惩罚:答对就奖励,答错就惩罚,而对“如何得出答案”以及“有多确定”并不加以区分。一个通过严密推理得出正确答案的模型,与一个纯粹蒙对的模型,在奖励上没有任何差别。长期下来,模型自然学会对每个问题都给出极为自信的回答,无论背后依据是否充分,甚至在相当于掷硬币的情形下也如此。
这种过度自信在实际应用中会带来严重后果。尤其是在医学、法律、金融等领域,用户往往会根据 AI 的输出做出关键决策。如果一个系统无论实际把握如何都表现得信心十足,外部用户几乎无法察觉其不确定性,就会显著削弱系统的可靠性。一个在真实正确率只有 50% 时仍声称“有 95% 把握”的模型,比直接给出错误答案的模型更危险,因为用户缺乏任何提示去寻求第二意见。
“标准的训练方法简单而强大,但它并不会鼓励模型表达不确定性,也不会让模型学会说‘我不知道’。”论文共同第一作者、MIT 博士生 Mehul Damani 指出,“结果就是,模型在不确定时自然倾向于猜测。”
RLCR 的做法是在强化学习的奖励函数中加入一个额外项:布里尔分数(Brier score)。布里尔分数是一种成熟的度量方式,用来衡量预测概率与实际结果之间的偏差。它会惩罚“宣称的置信度”与“真实准确度”之间的差距。在训练过程中,模型需要同时对问题本身进行推理,并对自己的不确定性进行推理,最终输出答案和对应的置信度估计。对于“非常自信但答错”的情况,模型会受到惩罚;而“明明答对却给出过低置信度”的情况,同样会被惩罚。

研究团队给出了数学上的证明:这种奖励结构可以保证模型在收敛后既保持较高准确率,又具备良好的置信度校准能力。随后,他们在一个 70 亿参数的语言模型上验证了该方法,测试覆盖多个问答和数学推理基准,其中包括 6 个模型在训练阶段从未见过的数据集。
实验结果呈现出清晰的一致性模式:
- 使用传统强化学习训练后,相比基础模型,模型的校准能力反而下降,更难准确估计自身的不确定性;
- 引入 RLCR 后,这种负面影响被逆转,模型的校准度显著提升,同时准确率并未下降,部分任务上甚至有所提高;
- 与“事后校准”方法相比(例如单独训练一个分类器在模型输出后再打置信度分数),RLCR 的端到端训练方式表现更优。
“令人意外的是,常规的强化学习训练不仅没有改善校准,反而在主动破坏它。”论文共同第一作者、MIT 博士生 Isha Puri 表示,“模型变得更强大,但也变得更加过度自信。”
团队还展示了 RLCR 生成的置信度估计在推理阶段的实际用法。当模型为同一问题生成多个候选答案时,可以:
- 直接选择模型自报置信度最高的那一个;
- 或者在多数投票方案中,用置信度对不同答案进行加权投票。
随着计算预算的增加,这两种策略都能同时提升最终答案的准确率和整体校准度。
研究还发现,“对不确定性的显式推理”本身就具有独立价值。研究人员训练了一个分类器来处理模型的输出,结果表明:如果把模型明确给出的不确定性推理一并作为输入,分类器的性能会得到提升,尤其是在较小模型上效果更明显。这说明,模型对“自己知道什么、不知道什么”的自我反思并非表面装饰,而是包含了可被下游系统利用的真实信息。
本文经 MIT 新闻(web.mit.edu/newsoffice/)授权转载。MIT 新闻专注报道麻省理工学院的研究、创新与教学相关内容。