更精细的偏见测量有望减少ChatGPT放大隐性刻板印象

科学 2026-04-27 人工智能, 大模型偏见, 算法公平, 医疗AI, 科技伦理 3 次浏览

语言模型（如 ChatGPT）并不是中立的工具。它们在训练过程中会从大量文本中学习，其中包含各种显性和隐性的偏见——例如性别偏见和种族偏见——这些偏见会逐渐固化在模型内部。人工智能研究员 Oskar van der Wal 指出，要想有效识别并削弱这些偏见，需要采用多种不同类型的测量方法。在他的博士论文中，他展示了如何更精确地检测和处理这些问题，并将于 4 月 29 日在阿姆斯特丹大学为此进行答辩。

语言模型常被误认为是“客观”的，但实际上，它们既会反映社会中已有的偏见，也可能在输出中进一步放大这些偏见。

Van der Wal 解释说：“用户往往没有意识到，模型在描述男性和女性时会做出某些默认假设或细微区分。”正因为这些偏见往往是隐性的、不易察觉的，它们才更容易在日常使用中被不断复制和扩散，进而影响人们对世界的理解和判断。

偏见为何难以测量

一个核心难点在于：偏见本身并不容易被量化和检测。“很多现有的偏见测量方法比较抽象，与实际应用场景脱节，”Van der Wal 说，“它们通常会去寻找模型输出中显而易见的刻板印象，比如‘荷兰人很吝啬’之类的说法。但在真实使用中，偏见往往并不会以这种直白的方式出现，而是深深嵌在具体情境和细节之中。”

他以医疗领域的 AI 应用为例进行说明。AI 系统通常从历史医疗数据中学习，如果这些数据本身就包含过时或错误的假设——例如用有争议的“种族”概念来解释某些疾病的差异——那么模型就可能在诊断或建议中持续复制这些假设。在医疗环境中，这类偏见会直接影响诊断结果和治疗方案，带来实际风险。

另一个典型问题是医疗数据的性别不平衡。如果训练数据主要来自男性患者的研究，那么模型在处理女性患者的症状时，可能会给出不同的解读，或者低估某些风险，从而做出与男性患者不一致的风险评估。

用真实场景测试偏见

为了检验在更贴近现实的情境中，模型是否会表现出与简单测试不同的偏差，Van der Wal 设计了一系列医疗案例，并让语言模型对这些案例给出诊断、风险评估或建议。

在这些实验中，他反复改变案例中“患者”的种族设定，观察模型在其他条件相同的情况下是否会给出不同的回答。“通过这种方式，我们可以识别模型在不同种族设定下的反应差异，以及这些差异是否具有系统性。”

结果显示，模型的回答中存在细微但稳定的差别，而这些差别在传统的标准偏见测试中并不明显。“正是因为这些测试场景更接近真实医疗实践，我们才能更清楚地看到偏见是如何在具体决策中发挥作用的。”

模型如何强化数据中的模式

除了从输出结果入手，Van der Wal 还研究了语言模型在训练过程中的内部变化。他逐步跟踪模型如何学习并存储信息。

在训练阶段，模型会学习哪些词语和概念经常共同出现。例如，如果训练数据中“医生”更频繁地与“他”搭配，而“护士”更常与“她”一起出现，模型就会在内部参数中形成这种关联。

随着训练的推进，这些关联会被编码到模型内部越来越具体的位置，形成稳定的模式，从而强化了性别刻板印象。“偏见不仅来自训练数据本身，也与模型内部如何组织和表示信息有关，”Van der Wal 指出。

有针对性的干预与调整

目前还不存在一种“一步到位”的通用方法，可以彻底消除语言模型中的所有偏见。但 Van der Wal 认为，有针对性的干预已经显示出一定效果。

“如果我们能够更精确地定位偏见在模型内部的具体位置，就可以对这些区域进行有选择的调整。”他表示，在一些特定案例中，这种方法已经取得了积极结果，但要将其推广到更复杂、更隐蔽的偏见形式，还需要进一步研究。

在实验中，Van der Wal 比较了模型在调整前后的表现。调整阶段中，模型被专门训练，以减少对已识别的性别相关偏见的依赖。他随后评估模型在描述男性和女性时的回答是否更加一致，同时检查模型在生成文本等常规任务上的整体性能是否受到影响。

结果表明，偏见程度有所下降，而模型的整体质量和能力基本保持不变。

谨慎开发与有意识使用

Van der Wal 强调，AI 的影响已经远远超出技术圈，成为一个重要的社会议题。“我们越来越依赖这些能够影响我们思考方式的系统，”他说，“这正是为什么在开发和部署 AI 时必须格外谨慎。”

在他看来，负责任的 AI 开发需要在多个层面同时进行干预：

在数据层面，审视和改进训练数据中的偏见与不平衡；
在训练过程中，监测并控制偏见的形成和放大；
在模型内部，通过更精细的分析和定向调整，削弱特定偏见；
在部署和使用阶段，结合场景进行持续评估和监督。

通过更精准的偏见测量和更贴近实际应用的测试方法，研究者希望能在不显著损害模型性能的前提下，减少语言模型放大隐性刻板印象的风险。

发表评论

登录后才可评论。去登录