让用户给三个选项排个序,就能让AI和推荐系统更聪明

richlovec 1500_400 (1)
 

隐形偏好也能被量化

1927年,美国心理学家 L. L. Thurstone 在论文《比较判断法则》中提出:当人们在多个备选项中做出选择时,其实是在挑选对自己“效用”(价值)最高的那个,即便他们无法给这个价值标上具体数字。

Thurstone 是“心理测量学”的奠基者之一。这个领域基于一个核心假设:即使心理过程不可见,也依然可以被测量和量化。他在 1927 年的工作,为后来被称为随机效用模型(random utility models,RUMs)的理论打下了基础。这类模型为描述人类偏好提供了数学框架,并据此预测人们在各种假设情境下可能做出的行为选择。

随机效用模型:从咖啡还是茶开始

随机效用模型之所以得名,是因为它们关注的是人从某个选择中获得的效用(或利益)。例如,你从图书馆借回一堆小说,决定先读哪一本,这个决策就可以用随机效用模型来刻画。

麻省理工学院电气工程与计算机科学系(EECS)助理教授、信息与决策系统实验室(LIDS)负责人 Gabriele Farina 解释说:“这些模型本质上是随机的,因为人和人之间存在差异。每个人都有自己的偏好,而且这些偏好还会随时间变化。”

比如,有人通常早晨更爱喝咖啡、晚饭后更偏向喝茶,但有时也会完全反过来。

当然,随机效用模型的应用远不止冷热饮料选择这么简单。政府和企业常用它们来预测人们在“反事实”(假如)情境中的行为:

  • 如果一条主干道因施工封闭,人们会如何选择上班或上学的路线和交通方式?
  • 如果一座城市突然获得 2000 万美元的额外资金,应该如何分配才能最大化公共利益?

尽管随机效用模型已经发展近百年,看似相当成熟,但最新研究表明,它们仍有重要的改进空间。

传统做法的局限:只问“二选一”不够

今年 4 月,在巴西里约热内卢举行的国际学习表征会议(International Conference on Learning Representations)上,一篇论文给出了一个关键结论:当前随机效用模型的常规估计方式存在根本性不足,而这一问题自 Thurstone 时代起就一直存在。

这篇论文的作者包括:

  • 前 MIT 博士后、现任新加坡南洋理工大学的 Yeshwanth Cherapanamjeri;
  • MIT EECS 助理教授、LIDS 负责人、同时也是 MIT 运筹学中心(ORC)核心教师的 Gabriele Farina;
  • MIT 计算机科学与人工智能实验室(CSAIL)Avanessians 计算机科学教授 Constantinos Daskalakis;
  • MIT 计算机科学博士生、LIDS 和 EECS 成员 Sobhan Mohammadpour。

他们指出,目前用于估计随机效用模型的数据,大多来自“两两比较”:在 A 和 B 两个选项之间——无论是 Netflix 上的电影、亚马逊上的商品,还是 Google 上的新闻报道——你会选哪一个?

Daskalakis 解释说,这种方式之所以流行,是因为“给单个项目打一个精确分数(比如 4.37 分)非常困难,而在两个选项之间做出偏好判断,在认知上要容易得多。”

问题在于,仅靠两两比较,很难发现多个选项之间的相关性。标准的随机效用模型通常假设 A 和 B 的效用是相互独立的,但现实中它们往往是相关的,而这种相关性非常关键。

例如:

  • 如果一位选民支持枪支管制,那么他也很可能支持政府资助的托儿服务;
  • 喜欢独立电影的人,往往也偏好外国电影,但对好莱坞动作大片兴趣不大。

“如果数字平台忽视了这种相关性,就无法准确估计用户偏好,”Daskalakis 指出,“如果 Netflix 一直给你推送你不感兴趣的电影,你可能会直接取消订阅。”

MIT 团队从理论上证明,仅依赖两两比较,无法恢复这些相关性信息。

关键突破:让用户给三个选项排个序

研究团队发现,如果让大量用户对三个备选项进行排序,就可以识别出选项之间的相关性。同样的信息,也可以通过结合“三选一”和“两选一”的数据来获得。

Mohammadpour 解释说:“在实际操作中,你可以让一群人对三个项目进行排序,然后用我们提出的方法,把这些个体排序结果整合成一个整体模型,从而得到全局偏好结构。”

Farina 表示,他们的工作重点在于随机效用模型的计算层面:

  • 设计能够有效提取偏好信息的算法;
  • 确定需要多少数据,或者说,需要进行多少次实验。

结果显示,确实存在高效算法,而且所需实验次数不会随着目录或数据库中项目数量呈指数级增长,这使得在大规模系统中应用成为可能。

蒙特利尔大学计算机科学家 Emma Frejinger 评论说:“这篇论文取得了关键突破,从数学上证明了传统数据收集方式为何失效,并展示了只要让用户进行三选一排序,就能准确训练这些强大模型。这一发现为如何收集更优数据、以驱动更精准的优化提供了一条极具实用价值的路线图。”

从推荐系统到大模型对齐

Daskalakis 强调:“构建效用模型在未来仍将是一个非常活跃的研究方向。正如随机效用模型自 1990 年代末以来对互联网经济至关重要,它们现在以及未来也会在人工智能模型的对齐中发挥关键作用。”

更进一步,他补充说:“随机效用模型在大型语言模型(LLMs)的商业可行性和实际应用中扮演核心角色。”

在训练大型语言模型时,人们通常会被要求对模型生成的多个候选输出进行排序。通过这些排序数据,模型可以更好地理解人类偏好的文本类型——包括语气、风格和内容等维度。

Daskalakis 指出,在当今这个充满海量选择的世界里,“你不可能要求人们在所有可能情境下都明确表达自己的全部偏好。你能做的,是构建一个模型,去预测人们对不同可能结果的看法。然后通过迭代过程不断改进和更新这个模型,直到它能给出足够好的预测。”

这项研究表明,只需在数据收集环节做出一个看似微小的改变——从“只问二选一”转向“让用户对三个选项排个序”——就能显著提升随机效用模型的表达能力,从而让推荐系统和人工智能系统更贴近真实的人类偏好。

(本文根据 MIT 新闻网站(web.mit.edu/newsoffice/)授权发布的报道整理而成,该网站专注于报道 MIT 的研究、创新和教学相关资讯。)


分享:


发表评论

登录后才可评论。 去登录