教会AI模型说“我不确定”

AI 2026-04-23 人工智能, 强化学习, 置信度校准, 语言模型, 推理模型 2 次浏览

在人工智能系统中，置信度往往具有很强的说服力，但同时也可能误导用户。

目前最先进的推理模型有一个共同特点：无论答案是否正确，它们总是以同样坚定的自信给出回应。麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究人员发现，这种过度自信源于模型训练中的一个具体缺陷，并提出了一种无需牺牲准确率即可修正该问题的方法。

这项名为RLCR（带校准奖励的强化学习）的技术，训练语言模型在给出答案的同时，生成经过校准的置信度估计。模型不仅输出答案，还会评估自身对答案的不确定性，并给出置信度分数。在多个基准测试中，RLCR将校准误差降低了高达90%，同时保持或提升了准确率，无论是在训练过的任务上，还是在模型从未见过的新任务上。该研究成果将在本月晚些时候的国际学习表征会议（ICLR）上发布。

问题的根源其实很简单。近年来推动AI推理突破的强化学习方法（包括OpenAI的o1系统所采用的训练方式）仅奖励正确答案，惩罚错误答案，中间没有任何区分。无论模型是通过严谨推理得出正确答案，还是纯属偶然猜对，获得的奖励都是一样的。久而久之，模型被训练成对每个问题都充满自信地给出答案，无论它是否有充分的依据，甚至像抛硬币一样随机猜测。

这种过度自信带来了严重后果。在医疗、法律、金融等领域，用户往往基于AI的输出做出决策。如果系统无论实际确定性如何都表现出高度自信，那么这种不可靠性很难被外部察觉。一个声称“我有95%把握”的模型，如果实际正确率只有一半，反而比直接给出错误答案更危险，因为用户缺乏寻求第二意见的信号。

“标准的训练方法简单且有效，但它没有激励模型表达不确定性或说‘我不知道’，”MIT博士生、论文共同第一作者Mehul Damani说。“因此，模型自然学会在不确定时进行猜测。”

RLCR通过在奖励函数中加入一个额外项——Brier分数（衡量模型置信度与实际准确率差距的经典指标）来解决这一问题。训练过程中，模型不仅学习如何解题，还学习如何评估自身的不确定性，同时输出答案和置信度。错误且自信的答案会被惩罚，正确但过于不确定的答案也会受到惩罚。

数学证明表明，这种奖励结构能够保证模型既准确又校准良好。研究团队在一个拥有70亿参数的模型上进行了测试，涵盖多个问答和数学基准测试，其中包括六个模型未曾训练过的数据集。

结果显示，标准强化学习训练反而降低了模型的校准能力，使其更难准确估计自身不确定性；而RLCR则显著提升了校准效果，且准确率无损甚至有所提升。该方法也优于事后校准方法（即训练独立分类器来评估置信度）。“令人惊讶的是，普通强化学习训练不仅没能改善校准，反而使情况更糟，”MIT博士生、论文共同第一作者Isha Puri表示。“模型变得更强大，同时也更自信过头。”

团队还证明，RLCR生成的置信度估计在推理阶段非常实用。当模型生成多个候选答案时，选择置信度最高的答案，或在多数投票机制中按置信度加权投票，能随着计算资源增加提升准确率和校准效果。

另一个发现是，模型对不确定性的推理本身具有价值。研究人员训练了基于模型输出的分类器，发现将模型明确的不确定性推理纳入输入，能提升分类器性能，尤其对较小模型效果显著。模型对自身认知的反思包含了真实信息，而非简单装饰。

除Damani和Puri外，论文作者还包括Stewart Slocum、Idan Shenfeld、Leshem Choshen，以及资深作者Jacob Andreas和Yoon Kim。

发表评论

登录后才可评论。去登录