昆士兰大学的一项最新研究显示,用于人工智能内容审核的大型语言模型(LLM)在看似中立的前提下,可能暗含细微的政治偏见,从而削弱其在敏感任务中的客观性。该研究由昆士兰大学电气工程与计算机科学学院的数据科学家 Gianluca Demartini 教授带领团队完成,他们通过“角色提示”方法,系统测试了聊天机器人在编码和再现政治偏见方面的倾向,并观察到明显的行为差异。
通过政治角色测试聊天机器人
研究团队选取了包括视觉模型在内的六个大型语言模型,让它们以不同政治意识形态的“人工智能角色”身份,对数千条仇恨文本和表情包进行内容审核。相关成果已发表在《ACM 智能系统与技术汇刊》上。
Demartini 教授指出,实验表明,即便整体准确率变化不大,一旦为模型设定特定政治角色,其在内容审核上的判断就会出现稳定的一致性意识形态偏差,并在不同角色之间产生明显分歧。
他表示:“已有研究发现,通过角色设定可以改变大型语言模型所表达的政治立场。这意味着,对于承担关键任务的人工智能系统,必须严格审视其意识形态稳健性,因为哪怕是非常细微的偏见,也足以影响公平性、包容性以及公众对系统的信任。”
意识形态角色是如何构建的
本研究中使用的人工智能角色来自一个包含 20 万个合成身份的数据库,涵盖教师、音乐家、体育明星、政治活动家等多种职业与社会身份。研究团队通过政治罗盘测试为每个角色标定意识形态位置,并从中选出 400 个意识形态相对“极端”的角色,让它们执行仇恨内容识别任务。
Demartini 教授介绍,团队发现,当为聊天机器人赋予某一角色后,其在仇恨言论检测中的精确率和召回率会随角色的意识形态倾向发生变化,但整体准确率并不会出现显著波动。
大型语言模型中的意识形态凝聚
研究还发现,大型语言模型——尤其是参数规模更大的模型——在同一意识形态“区域”内表现出更强的内部一致性和对齐特征。

Demartini 教授表示,这说明大型模型更倾向于“内化”特定的意识形态框架,而不是将其削弱或中和。
他指出:“随着大型语言模型在角色扮演能力上的提升,它们也更明显地编码出意识形态上的‘内群体’。在涉及政治的任务(例如仇恨言论检测)中,这种现象会表现为党派性偏见:模型对针对自身意识形态内群体的批评更为严厉,而对攻击对立阵营的内容则相对宽松。”
内群体保护与防御性偏见
Demartini 教授补充说,更大规模的模型还呈现出更复杂的偏见模式,其中包括明显的防御性倾向。
“我们观察到,左翼角色对反左翼仇恨内容更为敏感,而右翼角色则对反右翼仇恨言论更敏感。”他说,“这表明,意识形态对齐不仅会整体改变模型的检测阈值,还会让模型在审核时优先保护其‘内群体’,同时弱化对针对对立群体的有害内容的判定。”
为何仍需中立监督
研究人员强调,这项工作凸显了在高风险内容审核场景中引入中立监督者的重要性,以维护审核结果的公平性和透明度,保护弱势群体的安全与福祉,并维持公众对平台的信任。
“用户在与人工智能系统交互时,往往默认这些系统是完全中立的。”Demartini 教授表示,“但在内容审核中,这些模型的输出会反映其内部嵌入的意识形态偏见,可能对某些群体造成不成比例的影响,从而让数十亿用户在不知情的情况下遭遇不公平对待。”