让人工智能在不确定时学会说“我不知道”

科学 2026-04-27 人工智能, 强化学习, 大语言模型, 模型校准, MIT研究 7 次浏览

信心往往极具说服力，但在人工智能系统中，它经常是误导性的。当前最强大的推理模型有一个共同特征：无论答案是严谨推理得出还是纯属猜测，它们几乎总是以同样笃定的口吻作答。麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究人员追溯了这种“过度自信”的根源，发现问题出在训练过程中的一个具体缺陷，并提出了一种在不牺牲准确率的前提下进行修正的新方法。相关论文已发布在 arXiv 预印本平台，并将于本月晚些时候在国际学习表征会议（ICLR）上正式发表。

研究团队提出的技术名为 RLCR（Reinforcement Learning with Calibrated Rewards，带校准奖励的强化学习）。它的核心思路是：在训练语言模型时，不仅要求模型给出答案，还要同时输出与该答案相匹配的置信度估计。也就是说，模型在回答问题的同时，需要评估自己对这个答案有多确定，并给出一个置信度分数。

在多个标准基准测试中，RLCR 将模型的校准误差最多降低了 90%，同时保持甚至提升了模型的整体准确率。这一效果不仅出现在模型见过的任务上，在完全未参与训练的新任务上也同样成立。

问题的根源其实非常直接。近年来推动 AI 推理能力飞跃的强化学习（RL）方法——包括 OpenAI o1 系统采用的训练范式——通常只对“对”与“错”进行奖励或惩罚：答对就奖励，答错就惩罚，而对“如何得出答案”以及“有多确定”并不加以区分。一个通过严密推理得出正确答案的模型，与一个纯粹蒙对的模型，在奖励上没有任何差别。长期下来，模型自然学会对每个问题都给出极为自信的回答，无论背后依据是否充分，甚至在相当于掷硬币的情形下也如此。

这种过度自信在实际应用中会带来严重后果。尤其是在医学、法律、金融等领域，用户往往会根据 AI 的输出做出关键决策。如果一个系统无论实际把握如何都表现得信心十足，外部用户几乎无法察觉其不确定性，就会显著削弱系统的可靠性。一个在真实正确率只有 50% 时仍声称“有 95% 把握”的模型，比直接给出错误答案的模型更危险，因为用户缺乏任何提示去寻求第二意见。

“标准的训练方法简单而强大，但它并不会鼓励模型表达不确定性，也不会让模型学会说‘我不知道’。”论文共同第一作者、MIT 博士生 Mehul Damani 指出，“结果就是，模型在不确定时自然倾向于猜测。”

RLCR 的做法是在强化学习的奖励函数中加入一个额外项：布里尔分数（Brier score）。布里尔分数是一种成熟的度量方式，用来衡量预测概率与实际结果之间的偏差。它会惩罚“宣称的置信度”与“真实准确度”之间的差距。在训练过程中，模型需要同时对问题本身进行推理，并对自己的不确定性进行推理，最终输出答案和对应的置信度估计。对于“非常自信但答错”的情况，模型会受到惩罚；而“明明答对却给出过低置信度”的情况，同样会被惩罚。

研究团队给出了数学上的证明：这种奖励结构可以保证模型在收敛后既保持较高准确率，又具备良好的置信度校准能力。随后，他们在一个 70 亿参数的语言模型上验证了该方法，测试覆盖多个问答和数学推理基准，其中包括 6 个模型在训练阶段从未见过的数据集。

实验结果呈现出清晰的一致性模式：

使用传统强化学习训练后，相比基础模型，模型的校准能力反而下降，更难准确估计自身的不确定性；
引入 RLCR 后，这种负面影响被逆转，模型的校准度显著提升，同时准确率并未下降，部分任务上甚至有所提高；
与“事后校准”方法相比（例如单独训练一个分类器在模型输出后再打置信度分数），RLCR 的端到端训练方式表现更优。

“令人意外的是，常规的强化学习训练不仅没有改善校准，反而在主动破坏它。”论文共同第一作者、MIT 博士生 Isha Puri 表示，“模型变得更强大，但也变得更加过度自信。”

团队还展示了 RLCR 生成的置信度估计在推理阶段的实际用法。当模型为同一问题生成多个候选答案时，可以：

直接选择模型自报置信度最高的那一个；
或者在多数投票方案中，用置信度对不同答案进行加权投票。

随着计算预算的增加，这两种策略都能同时提升最终答案的准确率和整体校准度。

研究还发现，“对不确定性的显式推理”本身就具有独立价值。研究人员训练了一个分类器来处理模型的输出，结果表明：如果把模型明确给出的不确定性推理一并作为输入，分类器的性能会得到提升，尤其是在较小模型上效果更明显。这说明，模型对“自己知道什么、不知道什么”的自我反思并非表面装饰，而是包含了可被下游系统利用的真实信息。

本文经 MIT 新闻（web.mit.edu/newsoffice/）授权转载。MIT 新闻专注报道麻省理工学院的研究、创新与教学相关内容。

发表评论

登录后才可评论。去登录