研究:大型语言模型呈现人类式“我们与他们”群体偏见
新研究发现,多种主流大型语言模型会从训练文本中“继承”人类社会中的“我们与他们”偏见,并在默认与角色设定等不同条件下表现出对内群体更积极、对外群体更消极的语言模式。研究团队还提出了名为 ION 的缓解方法,可显著降低相关情感差异。
新研究发现,多种主流大型语言模型会从训练文本中“继承”人类社会中的“我们与他们”偏见,并在默认与角色设定等不同条件下表现出对内群体更积极、对外群体更消极的语言模式。研究团队还提出了名为 ION 的缓解方法,可显著降低相关情感差异。