新AI测试框架揭示自主系统潜在公平性隐患

科学 2026-04-08 人工智能, 伦理与公平性, 大型语言模型, 自主系统, MIT研究 39 次浏览

人工智能正越来越多地被用于优化高风险场景中的决策。例如，在电网调度中，自主系统可以自动找出既能降低成本又能维持电压稳定的配电方案。

然而，这些在技术指标上看似最优的结果是否真正公平？如果某种低成本配电策略让弱势社区比高收入地区更容易遭遇停电，这样的“最优”方案还能被接受吗？

为帮助相关方在系统上线前快速识别潜在伦理问题，麻省理工学院的研究人员提出了一种自动化评估方法，用来权衡可量化结果（如成本、可靠性）与定性或主观价值（如公平性）之间的关系。

这一系统将客观性能评估与用户定义的人类价值分离开来，并利用大型语言模型（LLM）作为人类代理，将利益相关者的偏好以结构化方式纳入评估过程。

该自适应框架会自动挑选最具代表性的场景进行深入分析，从而替代原本昂贵且耗时的大量人工评估流程。通过这些测试案例，既可以展示自主系统在何种条件下与人类价值高度一致，也能暴露出那些意外偏离伦理标准的情况。

高级作者、麻省理工学院航空航天系副教授、信息与决策系统实验室（LIDS）主要研究员樊楚楚表示：“我们可以在人工智能系统中设置很多规则和防护措施，但这些只能覆盖我们事先能想到的情形。仅仅说‘我们用的是基于这些数据训练的AI’远远不够。我们希望建立一种更系统的方法，去发现那些未知的未知，并在不良事件发生之前就将其预测出来。”

这项工作由论文第一作者、机械工程系研究生 Anjali Parashar，航空航天系博士后李英科，以及来自麻省理工和萨博公司（Saab）的其他研究人员共同完成。相关论文将发表于国际学习表征会议。

伦理评估的新路径

在电网等大型复杂系统中，要在兼顾所有目标的前提下评估AI建议方案的伦理一致性，难度尤其高。

现有多数测试框架依赖预先收集的数据，但关于主观伦理标准的标注数据往往极为匮乏。同时，伦理观念和AI系统本身都在不断变化，基于书面规范或监管文件的静态评估方法需要频繁更新，难以长期适用。

针对这一难题，樊楚楚团队从不同角度切入。基于他们此前在机器人系统评估方面的研究，他们构建了一个实验设计框架，用于自动识别最具信息量的场景，再交由人类利益相关者进行更深入的分析。

他们提出的两阶段系统被称为“系统级伦理测试的可扩展实验设计”（SEED-SET），将定量指标与伦理标准结合在一起。该方法既能找出同时满足可量化要求并高度符合人类价值的场景，也能定位在伦理上存在明显问题的情形。

“我们不希望把资源浪费在大量随机测试上，因此让框架聚焦在我们最关心的测试案例上非常关键。”李英科说。

值得注意的是，SEED-SET不依赖预先存在的伦理评估数据，并且可以同时处理多个目标。

以电网为例，系统可能服务多个用户群体，如一个大型农村社区和一个数据中心。两者都希望电力便宜且可靠，但从伦理角度看，它们在优先级上的诉求可能截然不同。

这些伦理偏好往往没有被清晰写入规则中，因此难以通过传统分析方法直接量化。

电网运营方的目标，是在满足成本等硬性指标的前提下，尽可能兼顾所有利益相关者的主观伦理偏好。

SEED-SET通过分层结构将问题拆解为两部分：一层是客观模型，评估系统在成本等可量化指标上的表现；另一层是主观模型，在客观结果的基础上，结合利益相关者的判断（如感知到的公平性）进行综合评估。

Parashar解释说：“我们方法中的客观部分对应AI系统本身，而主观部分则对应对系统进行评价的用户。通过这种分层拆解偏好，我们可以用更少的评估次数生成所需的关键场景。”

将主观偏好“写进”模型

在执行主观评估时，系统使用大型语言模型充当人类评估者的代理。研究人员将不同用户群体的偏好以自然语言形式写入提示，让模型据此进行判断。

大型语言模型会根据这些指令，对比两个候选场景，并依据设定的伦理标准选出更优的设计方案。

“如果让人类评估者连续审查数百甚至上千个场景，很容易出现疲劳和判断不一致的问题，因此我们采用基于大型语言模型的策略来替代大部分重复性工作。”Parashar说。

在此基础上，SEED-SET利用选定的场景对整体系统（例如配电策略）进行仿真。仿真结果再反过来指导下一轮最有价值测试场景的搜索。

最终，SEED-SET会智能筛选出一组最具代表性的场景，这些场景要么在客观指标和伦理标准上都表现良好，要么在某些方面明显不达标。用户可以据此分析AI系统的行为，并对其策略进行调整。

例如，SEED-SET可以识别出这样一种配电方案：在用电高峰时优先保障高收入地区的供电，而让弱势社区更容易遭遇停电，从而暴露出潜在的公平性问题。

为验证SEED-SET的有效性，研究人员将其应用于多个现实自主系统，包括AI驱动的电网和城市交通路由系统，并评估其生成场景与既定伦理标准的匹配程度。

结果显示，在相同时间内，SEED-SET生成的高价值测试案例数量是基线策略的两倍多，同时还能发现许多其他方法未能覆盖的关键场景。

“随着用户偏好的变化，SEED-SET给出的场景集合也发生了显著变化，这表明我们的评估策略能够很好地响应用户偏好的调整。”Parashar指出。

接下来，为进一步检验SEED-SET在真实环境中的实用性，研究团队需要开展用户研究，观察这些生成场景是否真正有助于实际决策。

除了推进相关用户研究外，团队还计划探索更高效的模型结构，以便将该方法扩展到规模更大、标准更多的问题上，例如用于分析大型语言模型自身的决策过程。

本文经麻省理工学院新闻办公室（web.mit.edu/newsoffice/）授权转载，该网站专注报道麻省理工学院在科研、创新与教学方面的最新进展。

发表评论

登录后才可评论。去登录