让用户给三个选项排个序，就能让AI和推荐系统更聪明

科学 2026-06-16 随机效用模型, 推荐系统, 人工智能对齐, 用户偏好建模, 大型语言模型 1 次浏览

隐形偏好也能被量化

1927年，美国心理学家 L. L. Thurstone 在论文《比较判断法则》中提出：当人们在多个备选项中做出选择时，其实是在挑选对自己“效用”（价值）最高的那个，即便他们无法给这个价值标上具体数字。

Thurstone 是“心理测量学”的奠基者之一。这个领域基于一个核心假设：即使心理过程不可见，也依然可以被测量和量化。他在 1927 年的工作，为后来被称为随机效用模型（random utility models，RUMs）的理论打下了基础。这类模型为描述人类偏好提供了数学框架，并据此预测人们在各种假设情境下可能做出的行为选择。

随机效用模型：从咖啡还是茶开始

随机效用模型之所以得名，是因为它们关注的是人从某个选择中获得的效用（或利益）。例如，你从图书馆借回一堆小说，决定先读哪一本，这个决策就可以用随机效用模型来刻画。

麻省理工学院电气工程与计算机科学系（EECS）助理教授、信息与决策系统实验室（LIDS）负责人 Gabriele Farina 解释说：“这些模型本质上是随机的，因为人和人之间存在差异。每个人都有自己的偏好，而且这些偏好还会随时间变化。”

比如，有人通常早晨更爱喝咖啡、晚饭后更偏向喝茶，但有时也会完全反过来。

当然，随机效用模型的应用远不止冷热饮料选择这么简单。政府和企业常用它们来预测人们在“反事实”（假如）情境中的行为：

如果一条主干道因施工封闭，人们会如何选择上班或上学的路线和交通方式？
如果一座城市突然获得 2000 万美元的额外资金，应该如何分配才能最大化公共利益？

尽管随机效用模型已经发展近百年，看似相当成熟，但最新研究表明，它们仍有重要的改进空间。

传统做法的局限：只问“二选一”不够

今年 4 月，在巴西里约热内卢举行的国际学习表征会议（International Conference on Learning Representations）上，一篇论文给出了一个关键结论：当前随机效用模型的常规估计方式存在根本性不足，而这一问题自 Thurstone 时代起就一直存在。

这篇论文的作者包括：

前 MIT 博士后、现任新加坡南洋理工大学的 Yeshwanth Cherapanamjeri；
MIT EECS 助理教授、LIDS 负责人、同时也是 MIT 运筹学中心（ORC）核心教师的 Gabriele Farina；
MIT 计算机科学与人工智能实验室（CSAIL）Avanessians 计算机科学教授 Constantinos Daskalakis；
MIT 计算机科学博士生、LIDS 和 EECS 成员 Sobhan Mohammadpour。

他们指出，目前用于估计随机效用模型的数据，大多来自“两两比较”：在 A 和 B 两个选项之间——无论是 Netflix 上的电影、亚马逊上的商品，还是 Google 上的新闻报道——你会选哪一个？

Daskalakis 解释说，这种方式之所以流行，是因为“给单个项目打一个精确分数（比如 4.37 分）非常困难，而在两个选项之间做出偏好判断，在认知上要容易得多。”

问题在于，仅靠两两比较，很难发现多个选项之间的相关性。标准的随机效用模型通常假设 A 和 B 的效用是相互独立的，但现实中它们往往是相关的，而这种相关性非常关键。

例如：

如果一位选民支持枪支管制，那么他也很可能支持政府资助的托儿服务；
喜欢独立电影的人，往往也偏好外国电影，但对好莱坞动作大片兴趣不大。

“如果数字平台忽视了这种相关性，就无法准确估计用户偏好，”Daskalakis 指出，“如果 Netflix 一直给你推送你不感兴趣的电影，你可能会直接取消订阅。”

MIT 团队从理论上证明，仅依赖两两比较，无法恢复这些相关性信息。

关键突破：让用户给三个选项排个序

研究团队发现，如果让大量用户对三个备选项进行排序，就可以识别出选项之间的相关性。同样的信息，也可以通过结合“三选一”和“两选一”的数据来获得。

Mohammadpour 解释说：“在实际操作中，你可以让一群人对三个项目进行排序，然后用我们提出的方法，把这些个体排序结果整合成一个整体模型，从而得到全局偏好结构。”

Farina 表示，他们的工作重点在于随机效用模型的计算层面：

设计能够有效提取偏好信息的算法；
确定需要多少数据，或者说，需要进行多少次实验。

结果显示，确实存在高效算法，而且所需实验次数不会随着目录或数据库中项目数量呈指数级增长，这使得在大规模系统中应用成为可能。

蒙特利尔大学计算机科学家 Emma Frejinger 评论说：“这篇论文取得了关键突破，从数学上证明了传统数据收集方式为何失效，并展示了只要让用户进行三选一排序，就能准确训练这些强大模型。这一发现为如何收集更优数据、以驱动更精准的优化提供了一条极具实用价值的路线图。”

从推荐系统到大模型对齐

Daskalakis 强调：“构建效用模型在未来仍将是一个非常活跃的研究方向。正如随机效用模型自 1990 年代末以来对互联网经济至关重要，它们现在以及未来也会在人工智能模型的对齐中发挥关键作用。”

更进一步，他补充说：“随机效用模型在大型语言模型（LLMs）的商业可行性和实际应用中扮演核心角色。”

在训练大型语言模型时，人们通常会被要求对模型生成的多个候选输出进行排序。通过这些排序数据，模型可以更好地理解人类偏好的文本类型——包括语气、风格和内容等维度。

Daskalakis 指出，在当今这个充满海量选择的世界里，“你不可能要求人们在所有可能情境下都明确表达自己的全部偏好。你能做的，是构建一个模型，去预测人们对不同可能结果的看法。然后通过迭代过程不断改进和更新这个模型，直到它能给出足够好的预测。”

这项研究表明，只需在数据收集环节做出一个看似微小的改变——从“只问二选一”转向“让用户对三个选项排个序”——就能显著提升随机效用模型的表达能力，从而让推荐系统和人工智能系统更贴近真实的人类偏好。

（本文根据 MIT 新闻网站（web.mit.edu/newsoffice/）授权发布的报道整理而成，该网站专注于报道 MIT 的研究、创新和教学相关资讯。）

发表评论

登录后才可评论。去登录