“我不确定”：新训练方法让人工智能学会承认不知道，显著降低致命错误风险

科学 2026-05-12 人工智能, 深度学习, 模型可靠性, 元认知, 科研进展 12 次浏览

一种新方法被提出，用来应对人工智能（AI）的“过度自信”问题——这是自动驾驶、医疗诊断等高风险场景中最关键的安全隐患之一。在这些应用里，AI往往会对明显错误的预测依然给出极高的置信度。韩国科学技术院（KAIST）研究团队开发出一套新的训练策略，让AI能够识别何时遇到不熟悉或从未见过的知识情形，从而为降低过度自信、提升系统可靠性打下基础。

精确追踪过度自信的源头

该研究由脑与认知科学系杰出教授白世范（Se-Bum Paik）领衔。团队发现，深度学习中普遍采用的“随机初始化”技术，很可能是AI过度自信的根本来源之一。深度学习依靠人工神经网络从数据中学习，而在训练开始前，网络权重通常会被随机设定。

研究人员提出了一种新的“预热”策略：在用真实数据训练之前，先用随机噪声（即无意义的任意输入）对神经网络进行短暂训练。相关成果已发表在《自然机器智能》（Nature Machine Intelligence）期刊上。

实验显示，AI的过度自信在初始化阶段就已经出现，并在后续训练中被放大，最终导致严重错误。当随机数据输入到随机初始化的神经网络时，即便模型尚未真正学到任何东西，它依然会给出置信度很高的输出。这种特性被认为与生成式AI的“幻觉”现象密切相关——模型会以极具说服力的方式生成错误信息。

为寻找解决思路，研究团队从生物大脑中获得启发。人类大脑在出生前就会通过“自发神经活动”（无需外部刺激即可产生的脑信号）来塑造神经回路结构。

借鉴大脑发育的“预热”思路

研究人员将这一理念迁移到人工神经网络中，引入“预热阶段”：在正式学习真实数据之前，先用随机噪声对网络进行短暂预训练。可以理解为，AI在真正开始学习世界之前，先对自身的不确定性进行一次“校准”。

经过预热后，模型的初始置信度被压低到接近随机水平，显著削弱了传统随机初始化所带来的过度自信偏差。

换句话说，在接触真实数据前，模型先学会了一种“我还一无所知”的状态。随后，当它再去学习真实数据时，预测的准确率（答对的频率）与置信度（自认为有多对）会更加自然地对齐。

在面对未见过的数据时，这种差异尤为明显。传统模型即使遇到训练中从未出现的样本，也往往会给出置信度很高但完全错误的答案；而经过预热训练的模型，则更倾向于降低置信度，更好地识别出“我不知道”的情形。

迈向更安全、更可靠的AI

这种训练方式在“分布外检测”（识别与训练数据分布明显不同的输入）任务上也展现出强劲表现。模型不仅更容易察觉异常输入，还能在不确定时主动收缩自信，而不是盲目给出肯定回答。

研究结果表明，AI有可能从单纯追求“答对多少题”，进化到具备区分“自己知道什么”和“自己不知道什么”的能力。这种对自身认知状态的觉察，被称为元认知。

白世范教授指出：“我们的研究显示，只要把大脑发育中的关键原理融入训练过程，AI就能以更接近人类的方式识别自己的知识边界。”他补充说：“这不仅是为了提高正确回答的比例，更重要的是让AI在不确定或可能出错时能够意识到这一点。”

研究团队预计，这项技术不仅适用于自动驾驶、医疗AI和生成式AI等对可靠性要求极高的领域，也有望推广到几乎所有依赖深度学习的模型初始化过程中，成为提升整体AI安全性与可信度的一项关键基础技术。

发表评论

登录后才可评论。去登录