麻省理工学院(MIT)的研究人员发现,当机器学习模型应用于与训练数据不同的新环境时,模型可能出现严重失效,这提醒我们在模型部署到新场景时必须进行充分测试。
MIT电气工程与计算机科学系副教授、医学工程与科学研究所成员、信息与决策系统实验室负责人Marzyeh Ghassemi表示:“即使在大量数据上训练并选择了表现最优的平均模型,在新的环境中,这个‘最佳模型’可能在6%到75%的新数据上表现最差。”
该团队在2025年12月NeurIPS会议上发表的论文中指出,例如,在一家医院训练用于胸部X光诊断的模型,虽然在另一家医院整体表现良好,但细分患者群体中,原本表现最好的模型在多达75%的患者上却表现最差。这种平均性能的汇总掩盖了模型在特定子群体上的失败。
研究表明,尽管提升模型在训练数据上的表现被认为可以减少虚假相关性的影响,但这类错误关联依然存在,且在新环境中严重影响模型的可信度。虚假相关性的一个简单例子是,模型可能因为背景而将海滩上的奶牛误判为虎鲸。更复杂的情况如胸部X光、癌症组织病理图像和仇恨言论检测中,这种错误关联更难被发现。
以胸部X光诊断为例,模型可能错误地将某医院X光片上的特定标记与某种病理状态关联,而另一医院没有该标记,导致病症被漏诊。
Ghassemi团队此前研究发现,模型可能错误地将年龄、性别和种族等因素与医学诊断结果相关联。例如,若模型主要在老年肺炎患者的X光片上训练,可能会错误地预测只有老年人患肺炎。
MIT博士后、论文第一作者Olawale Salaudeen指出:“我们希望模型能基于患者的解剖特征做出判断,但模型会利用数据中与决策相关的任何信息,而这些相关性在环境变化时可能不稳定,导致预测不可靠。”
虚假相关性增加了偏见决策的风险。论文中展示,尽管胸部X光模型整体诊断性能提升,但在患有胸膜疾病或心脏及纵隔腔扩大患者中的表现反而更差。

论文其他作者包括博士生Haoran Zhang和Kumail Alhamoud,电气工程与计算机科学助理教授Sara Beery,以及Ghassemi。
此前研究普遍认为,模型按性能排序在新环境中仍保持顺序(即“准确率线性关系”),但本研究展示了最佳模型在新环境中可能成为最差模型的情况。
Salaudeen设计了名为OODSelect的算法,用于发现准确率线性关系被打破的例子。他训练了数千个模型,先在原始环境数据上计算准确率,再将模型应用于新环境数据。当在原环境表现最好的模型在新环境大量样本上表现不佳时,算法识别出问题子集。Salaudeen强调,汇总统计数据可能掩盖更细粒度且关键的性能信息。
研究团队还区分了“最易误判样本”,避免将虚假相关性与本身难以分类的情况混淆。
论文发布了研究代码及部分识别出的子集,供未来研究使用。
一旦医院或其他机构识别出模型表现不佳的子集,就可以针对特定任务和环境优化模型。研究人员建议未来工作采用OODSelect,明确评估目标,设计更稳定的性能提升方案。
研究团队写道:“我们希望发布的代码和OODSelect子集成为基准测试和模型改进的基石,帮助应对虚假相关性的负面影响。”
