在1927年发表的论文《比较判断法则》中,美国心理学家L. L. Thurstone提出,人们在多个选项中做出选择时,会选出对自己价值最高的那个,尽管他们无法为该选择赋予具体的数值。
Thurstone是“心理测量学”的先驱,该领域基于这样一个前提:虽然我们看不见心理过程,但仍能对其进行测量和量化。他的这篇论文为如今被称为随机效用模型(Random Utility Models, RUMs)奠定了基础,这些模型为描述人类偏好提供了数学框架,从而能够预测各种假设情境下的行为。
随机效用模型之所以得名,是因为它们评估某个选择所带来的“效用”或利益——比如你从图书馆带回的一堆小说中决定先读哪一本。麻省理工学院电气工程与计算机科学系助理教授、信息与决策系统实验室负责人Gabriele Farina解释道:“这些模型本质上是随机的,因为每个人都不同,每个人的偏好也会随时间变化。”例如,有人早晨通常喜欢喝咖啡而非茶,晚饭后则偏爱茶,但偶尔也会打乱这个顺序。
随机效用模型不仅应用于日常选择,更广泛用于政府和工业领域,帮助预测人们在“假如”情境下的决策。例如,如果一条主要通勤道路因施工关闭,人们将如何选择出行路线和交通方式?或者如果一座城市突然获得2000万美元的资金,该如何分配以最大化公共利益?
尽管随机效用模型已有近百年历史,且不断发展完善,但MIT研究团队发现,传统模型仍存在改进空间。
2023年4月,在巴西里约热内卢举行的国际学习表征会议(ICLR)上,MIT的Yeshwanth Cherapanamjeri(现任职于新加坡南洋理工大学)、Gabriele Farina、MIT计算机科学与人工智能实验室教授Constantinos Daskalakis及博士生Sobhan Mohammadpour共同发表了一篇论文,揭示了随机效用模型在数据估计上的根本缺陷。
传统上,随机效用模型主要基于“成对比较”数据:在两个选项A和B之间,你更喜欢哪一个?Daskalakis解释说:“给单个选项赋予精确数值(如4.37)非常困难,而比较两个选项并判断喜欢哪个更容易。”但问题在于,仅通过两两比较,模型无法捕捉选项之间的相关性。

标准模型假设选项A和B的效用是独立的,但实际上它们可能相关。例如,支持枪支管制的选民可能也支持政府资助的托儿服务;喜欢独立电影的观众可能也偏爱外国影片,但不太喜欢好莱坞动作大片。如果数字平台忽视这些相关性,就难以准确估计用户偏好,导致推荐内容不符合用户兴趣,甚至流失用户。
MIT团队证明,仅凭两项比较无法获取相关性信息,但通过让大量用户对三项选择进行排序,或结合三项和两项选择的数据,则可以识别出这些相关性。Mohammadpour解释:“你可以让一群人对三件物品进行排序,然后用我们开发的方法将这些个体结果整合成一个大模型,从而获得整体偏好图景。”
Farina表示,他们的研究重点是随机效用模型的计算方法,设计能提取偏好信息的算法,并确定所需数据量或实验次数。好消息是,针对这一目的,确实存在高效算法,且所需实验次数不会随着选项数量呈指数增长。
蒙特利尔大学计算机科学家Emma Frejinger评价道:“这篇论文实现了关键突破,数学证明了传统数据收集方法的不足,并展示了仅需询问用户三选一偏好,就能准确训练强大模型。这为收集更优质数据、实现更精准优化提供了实用路径。”
Daskalakis强调:“构建效用模型将持续成为活跃研究领域。自1990年代末以来,随机效用模型对互联网经济至关重要,未来也将是人工智能模型对齐的核心。”更重要的是,“随机效用模型在大型语言模型(LLMs)的商业可行性和实用性中扮演关键角色。”训练期间,人们通常会对LLM生成的多个候选文本进行排序,帮助模型理解用户偏好的语气、风格和内容。
鉴于我们生活在充满各种选择的世界中,Daskalakis说:“不可能让人们为所有可能情境表达完整偏好。相反,我们可以构建模型预测人们对不同结果的看法,并通过不断迭代改进模型,最终实现准确预测。”
