提升人工智能模型解释预测能力的新方法

AI 2026-03-09 人工智能, 可解释性, 计算机视觉, 深度学习, 概念瓶颈模型 29 次浏览

在医疗诊断等高风险场景中，用户通常希望了解计算机视觉模型做出某一预测的依据，以便判断是否信任其输出结果。

概念瓶颈建模是一种使人工智能系统能够解释其决策过程的方法。该方法要求深度学习模型基于一组人类可理解的概念来进行预测。麻省理工学院（MIT）的计算机科学家们在最新研究中提出了一种新方法，促使模型在提高准确率的同时，生成更清晰且简洁的解释。

模型所使用的概念通常由专家预先定义。例如，临床医生可能会建议使用“聚集的棕色斑点”和“色素不均”等概念来预测医学图像中是否存在黑色素瘤。

然而，预定义的概念可能与具体任务不相关或细节不足，导致模型准确率下降。新方法则从模型在特定任务训练中已学到的知识中提取概念，并强制模型使用这些概念，从而比传统概念瓶颈模型提供更优的解释。

该方法利用一对专门的机器学习模型，自动从目标模型中提取知识，并将其转化为通俗易懂的概念。最终，这项技术能够将任何预训练的计算机视觉模型转换为能够通过概念解释其推理过程的模型。

“从某种意义上说，我们希望能够‘读懂’这些计算机视觉模型的思维。概念瓶颈模型让用户能够了解模型的想法及其做出某一预测的原因。由于我们的方法使用了更优质的概念，能够提升准确率，最终增强黑箱AI模型的可解释性和责任感，”该研究的第一作者、米兰理工大学研究生Antonio De Santis表示，他在MIT计算机科学与人工智能实验室（CSAIL）访学期间完成了这项研究。

他与Schrasing Tong（SM ’20，PhD ’26）、米兰理工大学计算机科学与工程教授Marco Brambilla，以及CSAIL首席研究科学家Lalana Kagal共同发表了相关论文，该研究成果将在国际学习表征会议（ICLR）上展示。

构建更优的瓶颈层

概念瓶颈模型（CBM）是提升AI可解释性的一种流行方法。该方法通过增加一个中间步骤，迫使计算机视觉模型先预测图像中存在的概念，再基于这些概念做出最终预测。

这一“瓶颈”步骤帮助用户理解模型的推理过程。例如，一个识别鸟类的模型可能先选择“黄色腿部”和“蓝色翅膀”等概念，然后预测该鸟为燕子。

但由于这些概念通常由人类或大型语言模型（LLM）预先生成，可能不适合具体任务。此外，即使给定预定义概念，模型有时仍会利用不希望出现的隐含信息，导致所谓的信息泄露问题。

“这些模型被训练以最大化性能，因此它们可能会秘密使用我们未知的概念，”De Santis解释道。

MIT团队提出了不同的思路：既然模型已在大量数据上训练，或许它已经学会了完成特定任务所需的概念。他们尝试通过提取这些已有知识并转化为人类可理解的文本，构建概念瓶颈模型。

方法的第一步是使用一种称为稀疏自编码器的专门深度学习模型，有选择地提取模型学到的最相关特征，并将其重构为少量概念。随后，多模态大型语言模型（LLM）用通俗语言描述每个概念。

该多模态LLM还会对数据集中的图像进行标注，识别每张图像中存在或缺失的概念。研究人员利用这个带注释的数据集训练概念瓶颈模块，使其能够识别这些概念。

最后，他们将该模块整合进目标模型，强制模型仅使用提取的概念集合进行预测。

控制概念的使用

研究团队克服了诸多挑战，包括确保LLM正确标注概念，以及判断稀疏自编码器提取的概念是否易于人类理解。

为防止模型使用未知或不希望的概念，他们限制每次预测只能使用五个概念。这不仅迫使模型选择最相关的概念，也使解释更易理解。

在预测鸟类种类和识别医学图像中的皮肤病变等任务中，该方法相比最先进的CBM取得了更高的准确率，同时提供了更精准的解释。

此外，该方法生成的概念更贴合数据集中的图像内容。

“我们证明了从原始模型中提取概念能够超越其他CBM，但可解释性与准确率之间仍存在权衡。不可解释的黑箱模型仍然优于我们的模型，”De Santis表示。

未来，研究团队计划探索解决信息泄露问题的方案，例如增加额外的概念瓶颈模块以阻止不良概念泄露。同时，他们希望通过使用更大型的多模态LLM对更大规模的数据集进行标注，进一步提升性能。

“这项工作令人振奋，因为它推动了可解释AI的发展，搭建了通向符号AI和知识图谱的自然桥梁，”未参与本研究的维尔茨堡大学数据科学教授Andreas Hotho评价道。“通过从模型自身内部机制而非仅依赖人类定义的概念中提取概念瓶颈，这为更忠实于模型的解释提供了路径，也为后续基于结构化知识的研究开辟了广阔空间。”

本研究得到了Progetto Rocca博士奖学金、意大利大学与研究部国家复苏与韧性计划、Thales Alenia Space以及欧盟NextGenerationEU项目的支持。

发表评论

登录后才可评论。去登录