大型语言模型(LLMs)虽然能生成看似可信的回答,但有时却会出现错误。为此,研究人员开发了多种不确定性量化方法来评估预测的可靠性。其中一种常用方法是多次提交相同提示,观察模型是否给出一致答案。
然而,这种方法主要衡量模型的自信度,而即使是表现最出色的LLM也可能“自信满满”地给出错误答案。过度自信会误导用户对预测准确性的判断,尤其在医疗或金融等高风险领域可能带来严重后果。
为了解决这一问题,麻省理工学院(MIT)的研究人员提出了一种新的不确定性度量方法,专门识别那些自信但错误的LLM回答。
该方法通过将目标模型的回答与一组结构和规模相似的其他LLM的回答进行比较,测量模型间的分歧程度。研究发现,这种跨模型分歧的度量比传统的自信度测量更准确地反映了模型的不确定性。
研究团队将这一方法与传统的模型自一致性度量结合,构建了一个综合不确定性指标(Total Uncertainty,TU),并在包括问答和数学推理在内的10个实际任务中进行了评估。结果显示,TU指标在识别不可靠预测方面表现优于单一指标。
MIT电气工程与计算机科学研究生Kimia Hamidieh表示:“虽然自一致性在不确定性量化中被广泛使用,但仅依赖单一模型的结果来估计不确定性并不可靠。我们回顾了现有方法的局限性,基于此设计了一个互补的新方法,实证上提升了效果。”
论文合作者包括MIT-IBM Watson AI实验室的研究科学家Veronika Thost,现任伍斯特理工学院助理教授的前MIT博士后Walter Gerych,MIT-IBM Watson AI实验室的研究科学家Mikhail Yurochkin,以及MIT电气工程与计算机科学副教授Marzyeh Ghassemi。
理解过度自信
许多不确定性量化方法依赖模型给出的置信分数或测试模型对同一提示的回答一致性,这主要衡量模型的内在自信度(称为“偶然性不确定性”)。
然而,LLM可能在完全错误时仍表现出高度自信。研究表明,另一种不确定性——“认知性不确定性”,即对所用模型是否合适的怀疑,更能反映模型过度自信时的真实不确定性。
MIT团队通过测量一组相似LLM之间的回答分歧来估计认知性不确定性。Hamidieh解释:“如果我多次问ChatGPT同一个问题,得到相同答案,这并不保证答案正确。如果换成Claude或Gemini,得到不同答案,这就反映了认知性不确定性。”
认知性不确定性试图衡量目标模型与理想模型的差距,但由于理想模型难以构建,研究人员通常采用近似模型,这些近似往往存在缺陷。

集成方法
研究人员提出的方法通过比较目标模型与一组规模和架构相似的模型之间的语义相似度,来更准确地估计认知性不确定性。
为了获得最佳估计,这组模型需要覆盖多样化的回答,且与目标模型不能过于相似,同时根据可信度加权。
Hamidieh说:“我们发现最简单有效的方式是选用不同公司训练的模型。我们尝试过更复杂的方法,但这个简单策略效果最好。”
在此基础上,他们将认知性不确定性与传统的偶然性不确定性结合,形成了综合不确定性指标(TU),更准确地反映模型置信度的可信性。
Hamidieh指出:“不确定性既取决于提示本身的不确定性,也取决于模型与最优模型的接近程度。因此,将两种不确定性指标相加能得到最佳估计。”
TU指标能更有效地识别模型幻觉,因为认知性不确定性能发现偶然性不确定性可能忽略的自信错误输出。同时,它也有助于在训练中强化模型自信且正确的回答,从而提升性能。
研究团队在10个常见任务(如问答、摘要、翻译和数学推理)中测试了TU指标,结果显示其在识别不可靠预测方面优于单独使用任一指标。
此外,TU指标通常需要的查询次数少于单独计算偶然性不确定性,降低了计算成本和能耗。
实验还发现,认知性不确定性在有唯一正确答案的任务(如事实问答)中表现最佳,但在开放式任务中效果较差。
未来,研究人员计划改进该技术以提升其在开放式查询中的表现,并探索其他类型的偶然性不确定性。
该研究部分由MIT-IBM Watson AI实验室资助。
