在人工智能系统中,置信度往往具有很强的说服力,但同时也可能误导用户。
目前最先进的推理模型有一个共同特点:无论答案是否正确,它们总是以同样坚定的自信给出回应。麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员发现,这种过度自信源于模型训练中的一个具体缺陷,并提出了一种无需牺牲准确率即可修正该问题的方法。
这项名为RLCR(带校准奖励的强化学习)的技术,训练语言模型在给出答案的同时,生成经过校准的置信度估计。模型不仅输出答案,还会评估自身对答案的不确定性,并给出置信度分数。在多个基准测试中,RLCR将校准误差降低了高达90%,同时保持或提升了准确率,无论是在训练过的任务上,还是在模型从未见过的新任务上。该研究成果将在本月晚些时候的国际学习表征会议(ICLR)上发布。
问题的根源其实很简单。近年来推动AI推理突破的强化学习方法(包括OpenAI的o1系统所采用的训练方式)仅奖励正确答案,惩罚错误答案,中间没有任何区分。无论模型是通过严谨推理得出正确答案,还是纯属偶然猜对,获得的奖励都是一样的。久而久之,模型被训练成对每个问题都充满自信地给出答案,无论它是否有充分的依据,甚至像抛硬币一样随机猜测。
这种过度自信带来了严重后果。在医疗、法律、金融等领域,用户往往基于AI的输出做出决策。如果系统无论实际确定性如何都表现出高度自信,那么这种不可靠性很难被外部察觉。一个声称“我有95%把握”的模型,如果实际正确率只有一半,反而比直接给出错误答案更危险,因为用户缺乏寻求第二意见的信号。
“标准的训练方法简单且有效,但它没有激励模型表达不确定性或说‘我不知道’,”MIT博士生、论文共同第一作者Mehul Damani说。“因此,模型自然学会在不确定时进行猜测。”

RLCR通过在奖励函数中加入一个额外项——Brier分数(衡量模型置信度与实际准确率差距的经典指标)来解决这一问题。训练过程中,模型不仅学习如何解题,还学习如何评估自身的不确定性,同时输出答案和置信度。错误且自信的答案会被惩罚,正确但过于不确定的答案也会受到惩罚。
数学证明表明,这种奖励结构能够保证模型既准确又校准良好。研究团队在一个拥有70亿参数的模型上进行了测试,涵盖多个问答和数学基准测试,其中包括六个模型未曾训练过的数据集。
结果显示,标准强化学习训练反而降低了模型的校准能力,使其更难准确估计自身不确定性;而RLCR则显著提升了校准效果,且准确率无损甚至有所提升。该方法也优于事后校准方法(即训练独立分类器来评估置信度)。“令人惊讶的是,普通强化学习训练不仅没能改善校准,反而使情况更糟,”MIT博士生、论文共同第一作者Isha Puri表示。“模型变得更强大,同时也更自信过头。”
团队还证明,RLCR生成的置信度估计在推理阶段非常实用。当模型生成多个候选答案时,选择置信度最高的答案,或在多数投票机制中按置信度加权投票,能随着计算资源增加提升准确率和校准效果。
另一个发现是,模型对不确定性的推理本身具有价值。研究人员训练了基于模型输出的分类器,发现将模型明确的不确定性推理纳入输入,能提升分类器性能,尤其对较小模型效果显著。模型对自身认知的反思包含了真实信息,而非简单装饰。
除Damani和Puri外,论文作者还包括Stewart Slocum、Idan Shenfeld、Leshem Choshen,以及资深作者Jacob Andreas和Yoon Kim。