更精细的偏见测量有望减少ChatGPT放大隐性刻板印象

语言模型(如 ChatGPT)并不是中立的工具。它们在训练过程中会从大量文本中学习,其中包含各种显性和隐性的偏见——例如性别偏见和种族偏见——这些偏见会逐渐固化在模型内部。人工智能研究员 Oskar van der Wal 指出,要想有效识别并削弱这些偏见,需要采用多种不同类型的测量方法。在他的博士论文中,他展示了如何更精确地检测和处理这些问题,并将于 4 月 29 日在阿姆斯特丹大学为此进行答辩。

语言模型常被误认为是“客观”的,但实际上,它们既会反映社会中已有的偏见,也可能在输出中进一步放大这些偏见。

Van der Wal 解释说:“用户往往没有意识到,模型在描述男性和女性时会做出某些默认假设或细微区分。”正因为这些偏见往往是隐性的、不易察觉的,它们才更容易在日常使用中被不断复制和扩散,进而影响人们对世界的理解和判断。

偏见为何难以测量

一个核心难点在于:偏见本身并不容易被量化和检测。“很多现有的偏见测量方法比较抽象,与实际应用场景脱节,”Van der Wal 说,“它们通常会去寻找模型输出中显而易见的刻板印象,比如‘荷兰人很吝啬’之类的说法。但在真实使用中,偏见往往并不会以这种直白的方式出现,而是深深嵌在具体情境和细节之中。”

他以医疗领域的 AI 应用为例进行说明。AI 系统通常从历史医疗数据中学习,如果这些数据本身就包含过时或错误的假设——例如用有争议的“种族”概念来解释某些疾病的差异——那么模型就可能在诊断或建议中持续复制这些假设。在医疗环境中,这类偏见会直接影响诊断结果和治疗方案,带来实际风险。

另一个典型问题是医疗数据的性别不平衡。如果训练数据主要来自男性患者的研究,那么模型在处理女性患者的症状时,可能会给出不同的解读,或者低估某些风险,从而做出与男性患者不一致的风险评估。

用真实场景测试偏见

为了检验在更贴近现实的情境中,模型是否会表现出与简单测试不同的偏差,Van der Wal 设计了一系列医疗案例,并让语言模型对这些案例给出诊断、风险评估或建议。

在这些实验中,他反复改变案例中“患者”的种族设定,观察模型在其他条件相同的情况下是否会给出不同的回答。“通过这种方式,我们可以识别模型在不同种族设定下的反应差异,以及这些差异是否具有系统性。”

结果显示,模型的回答中存在细微但稳定的差别,而这些差别在传统的标准偏见测试中并不明显。“正是因为这些测试场景更接近真实医疗实践,我们才能更清楚地看到偏见是如何在具体决策中发挥作用的。”

模型如何强化数据中的模式

除了从输出结果入手,Van der Wal 还研究了语言模型在训练过程中的内部变化。他逐步跟踪模型如何学习并存储信息。

在训练阶段,模型会学习哪些词语和概念经常共同出现。例如,如果训练数据中“医生”更频繁地与“他”搭配,而“护士”更常与“她”一起出现,模型就会在内部参数中形成这种关联。

随着训练的推进,这些关联会被编码到模型内部越来越具体的位置,形成稳定的模式,从而强化了性别刻板印象。“偏见不仅来自训练数据本身,也与模型内部如何组织和表示信息有关,”Van der Wal 指出。

有针对性的干预与调整

目前还不存在一种“一步到位”的通用方法,可以彻底消除语言模型中的所有偏见。但 Van der Wal 认为,有针对性的干预已经显示出一定效果。

“如果我们能够更精确地定位偏见在模型内部的具体位置,就可以对这些区域进行有选择的调整。”他表示,在一些特定案例中,这种方法已经取得了积极结果,但要将其推广到更复杂、更隐蔽的偏见形式,还需要进一步研究。

在实验中,Van der Wal 比较了模型在调整前后的表现。调整阶段中,模型被专门训练,以减少对已识别的性别相关偏见的依赖。他随后评估模型在描述男性和女性时的回答是否更加一致,同时检查模型在生成文本等常规任务上的整体性能是否受到影响。

结果表明,偏见程度有所下降,而模型的整体质量和能力基本保持不变。

谨慎开发与有意识使用

Van der Wal 强调,AI 的影响已经远远超出技术圈,成为一个重要的社会议题。“我们越来越依赖这些能够影响我们思考方式的系统,”他说,“这正是为什么在开发和部署 AI 时必须格外谨慎。”

在他看来,负责任的 AI 开发需要在多个层面同时进行干预:

  • 在数据层面,审视和改进训练数据中的偏见与不平衡;
  • 在训练过程中,监测并控制偏见的形成和放大;
  • 在模型内部,通过更精细的分析和定向调整,削弱特定偏见;
  • 在部署和使用阶段,结合场景进行持续评估和监督。

通过更精准的偏见测量和更贴近实际应用的测试方法,研究者希望能在不显著损害模型性能的前提下,减少语言模型放大隐性刻板印象的风险。


分享:


发表评论

登录后才可评论。 去登录