研究称大型语言模型在“信任”评估中呈现结构化偏见

科学 2026-04-14 大型语言模型, 信任评估, 算法偏见, 学术研究, 人工智能应用 21 次浏览

耶路撒冷希伯来大学的一项新研究显示，大型语言模型（LLM）在评估对人的“信任”时，会形成类似人类的结构化判断框架，但其应用更为机械和僵化，并在部分情境下呈现出更强烈且更一致的人口统计偏见。

研究由耶路撒冷希伯来大学的瓦莱里娅·勒尔曼（Valeria Lerman）和亚尼夫·多弗（Yaniv Dover）主导。研究团队指出，随着大型语言模型及基于其构建的代理在各类决策场景中与人类互动日益频繁，理解人类与此类系统之间的信任关系已成为重要议题。现有研究多聚焦于人类如何信任人工智能，而大型语言模型如何对人形成模拟“信任”判断则相对缺乏系统探讨。

在这项研究中，研究人员比较了五个大型语言模型与人类参与者在五种情境下的表现，共进行了43,200次模拟。相关情境包括：决定向小企业主借出多少资金、是否信任保姆、如何评价上司，以及向非营利组织创始人捐赠多少等。

研究团队表示，在这些情境中，人类和大型语言模型都呈现出相似的总体倾向，即更偏好那些被描述为有能力、诚实且善意的个体。研究认为，这表明大型语言模型在一定程度上“掌握”了人际信任的基本维度——能力、诚信和善意。

不过，研究也发现，大型语言模型在应用这一信任框架时，会将个体拆解为多个独立维度，对能力、诚信和善意分别进行打分，形成一种高度结构化、类似“按列打分”的判断方式。与之相比，人类参与者在评估他人时表现得更为杂乱、整体化和不规则。

勒尔曼表示，人类在判断他人时往往呈现出更为综合、非线性的模式，而大型语言模型则给出更“干净”、更系统化的评估。这种差异导致两者在具体决策结果上可能出现明显不同。

研究特别指出，在涉及金钱的金融情境中，如借贷额度或捐赠金额的决定，大型语言模型表现出基于人口统计特征的持续且有时显著的差异。研究总结的模式包括：

年龄：年长个体通常获得更有利的结果，尽管在部分情境中也出现相反趋势；
宗教：宗教属性对结果，尤其是与金钱相关的结果，有显著影响；
性别：在某些模型和特定情境中，性别会对决策产生影响。

研究指出，这些差异在控制其他个人信息、保持条件相同的情况下依然存在。多弗表示，人类当然也存在偏见，但研究团队感到意外的是，大型语言模型的偏见在某些情况下更具系统性和可预测性，强度有时甚至超过人类。

研究的另一项发现是，不同大型语言模型之间并不存在统一的“人工智能观点”。在对同一人物或同一情境进行判断时，不同模型可能给出截然不同的结果：某一模型会对某种特质给予正向评价，而另一模型则可能对同一特质作出负向判断。研究认为，这意味着在现实应用中，具体选用哪一种大型语言模型，可能在不被注意的情况下影响到实际决策结果。

勒尔曼指出，表面上类似的两个系统，在对人的决策上可能呈现出完全不同的行为模式。研究提到，目前此类系统已被用于求职者筛选、信用评估、医疗建议推荐以及组织决策支持等场景。随着大型语言模型从“助手”角色逐步参与到实际决策过程，理解其内部判断逻辑被认为尤为关键。

研究结论称，大型语言模型能够在结构上模仿人类的判断框架，但其判断方式更为僵化、缺乏细腻度，并伴随可能更难以察觉的偏见。研究人员强调，这一发现并非对相关技术的简单否定，而是希望引发对其使用方式和影响的更高警觉。

多弗表示，这些系统在模拟人类推理某些方面时具有较强能力和一致性，但它们并非人类，不应假定其以与人类相同的方式看待和评估他人。研究最后指出，随着人工智能进一步融入日常生活，讨论的焦点正从“人类是否信任机器”转向“人类是否理解这些系统如何对人形成信任判断”。

该研究成果已发表于本月的《皇家学会会刊A辑》（Proceedings of the Royal Society A）。论文题为《深入观察大型语言模型如何“信任”人类：模式与偏见》（A close look at how large language models “trust” humans: patterns and biases），作者为瓦莱里娅·勒尔曼和亚尼夫·多弗，刊号为482（2335）：20251113，DOI为10.1098/rspa.2025.1113。

发表评论

登录后才可评论。去登录