评估自主系统的伦理性

AI 2026-04-02 人工智能, 伦理评估, 自主系统, 大型语言模型, 电力系统 40 次浏览

人工智能正日益被应用于优化高风险环境中的决策过程。例如，自主系统可以制定一种既能降低成本又能保持电压稳定的电力分配策略。

然而，虽然这些由AI驱动的方案在技术上可能是最优的，但它们是否公平呢？如果一种低成本的电力分配策略使得弱势社区比高收入地区更容易遭遇停电风险，该怎么办？

为了帮助利益相关者在部署前迅速发现潜在的伦理困境，麻省理工学院的研究人员开发了一种自动化评估方法，该方法平衡了可量化的结果（如成本或可靠性）与定性或主观价值（如公平性）之间的关系。

该系统将客观评估与用户定义的人类价值分开，利用大型语言模型（LLM）作为人类的代理，捕捉并融合利益相关者的偏好。

这一自适应框架能够筛选出最适合进一步评估的场景，简化了通常需要耗费大量时间和成本的人工测试流程。测试案例既能展示自主系统与人类价值高度契合的情况，也能揭示意外未达伦理标准的情形。

“我们可以在AI系统中设置许多规则和保护措施，但这些防护只能防止我们能预见的风险。仅仅说‘让AI基于已有数据训练’是不够的。我们希望开发一种更系统的方法，发现未知的风险，并在问题发生前预测它们。”麻省理工航空航天系副教授、信息与决策系统实验室（LIDS）主要研究员范楚楚说道。

范楚楚与机械工程研究生、论文第一作者Anjali Parashar，航空航天博士后Yingke Li，以及麻省理工和萨博公司的其他研究人员共同完成了这项研究。该研究成果将在国际学习表征会议（ICLR）上发表。

伦理评估

在像电网这样的大型系统中，全面考虑所有目标来评估AI模型建议的伦理一致性尤其困难。

大多数测试框架依赖预先收集的数据，但关于主观伦理标准的标注数据往往难以获得。此外，由于伦理价值和AI系统都在不断演变，基于静态规则或法规的评估方法需要频繁更新。

范楚楚团队从不同角度出发，借鉴他们之前对机器人系统的评估经验，开发了一种实验设计框架，用于识别最具信息量的场景，由人类利益相关者进行深入评估。

他们设计的两部分系统——可扩展系统级伦理测试实验设计（SEED-SET），结合了定量指标和伦理标准，能够识别既满足可测量要求又符合人类价值的场景，反之亦然。

“我们不想把所有资源都花在随机评估上，因此引导框架关注我们最关心的测试案例非常重要。”Yingke Li说。

值得注意的是，SEED-SET不依赖预先存在的评估数据，并且能够适应多目标需求。

例如，一个电网可能服务于多个用户群体，包括大型农村社区和数据中心。虽然两者都希望电力成本低且可靠，但从伦理角度看，各自的优先级可能大相径庭。

这些伦理标准往往难以明确量化，因此无法通过分析方法直接测量。

电网运营商希望找到一种既经济又能最大程度满足所有利益相关者主观伦理偏好的策略。

SEED-SET通过分层结构将问题拆分为两部分：一个客观模型评估系统在成本等可量化指标上的表现；一个主观模型基于利益相关者的判断（如公平感知）对客观评估进行补充。

“我们的方法中，客观部分与AI系统相关，主观部分则与评估它的用户相关。通过分层分解偏好，我们能用更少的评估次数生成理想的测试场景。”Parashar解释道。

编码主观性

为了进行主观评估，系统使用大型语言模型作为人类评估者的代理。研究人员将每个用户群体的偏好编码成自然语言提示，供模型使用。

LLM根据这些指令比较两个场景，基于伦理标准选择更优设计。

“人类评估者在审查数百甚至数千个场景后容易疲劳，导致评估不一致，因此我们采用基于LLM的策略。”Parashar说。

SEED-SET利用选定的场景模拟整体系统（如电力分配策略），并根据模拟结果指导下一轮最佳候选场景的搜索。

最终，SEED-SET智能筛选出最具代表性的场景，这些场景或符合，或不符合客观指标和伦理标准。用户据此可以分析AI系统的表现并调整策略。

例如，SEED-SET能识别出在高峰用电时优先保障高收入地区电力供应、导致弱势社区更易停电的分配方案。

为了验证SEED-SET，研究人员评估了现实中的自主系统，如AI驱动的电网和城市交通路由系统，测量生成场景与伦理标准的契合度。

该系统在相同时间内生成的最优测试案例数量是基线策略的两倍以上，同时发现了许多其他方法忽视的场景。

“随着用户偏好的变化，SEED-SET生成的场景集也发生了显著变化，这表明评估策略能很好地响应用户偏好。”Parashar说。

为了评估SEED-SET在实际中的效用，研究人员计划开展用户研究，检验其生成的场景是否有助于实际决策。

除了进行用户研究外，团队还计划探索更高效的模型，以应对更大规模、更多评估标准的问题，比如评估大型语言模型的决策过程。

这项研究部分由美国国防高级研究计划局（DARPA）资助。

发表评论

登录后才可评论。去登录