企业在选择用于销售报告总结或客户咨询分流的大型语言模型(LLM)时,面对数百种不同模型及其多样化变体,性能略有差异,选择难度较大。为了简化决策,许多公司依赖LLM排名平台,这些平台通过收集用户对模型交互的反馈,基于模型在特定任务上的表现对最新LLM进行排序。
然而,麻省理工学院(MIT)的研究人员发现,少量用户交互数据就可能导致排名结果偏差,使得某个LLM被误认为是特定应用场景的最佳选择。研究表明,移除极少部分众包数据即可改变排名靠前的模型。
为此,研究团队开发了一种快速检测排名平台是否存在此类问题的方法。该评估技术能够识别出最影响排名结果的个别投票,方便用户审查这些关键反馈。
研究人员强调,这项工作凸显了对模型排名评估采取更严谨策略的必要性。虽然本研究未专注于解决方案,但提出了改进建议,例如收集更详细的用户反馈以增强排名平台的稳健性。
此外,研究也提醒依赖排名做出LLM选择的用户注意,这些排名可能对企业或组织产生深远且昂贵的影响。
麻省理工学院电气工程与计算机科学系副教授、该研究高级作者Tamara Broderick表示:“我们惊讶于这些排名平台对少量数据的敏感性。如果排名第一的LLM仅依赖两三条用户反馈,而总反馈数以万计,那么不能假设该模型在实际部署时一定会持续优于其他模型。”
该论文由EECS研究生Jenny Huang和Yunyi Shen担任第一作者,IBM研究高级科学家Dennis Wei参与撰写,研究成果将在国际学习表征会议(ICLR)上发布。
数据移除实验
目前主流的LLM排名平台通常让用户提交同一查询给两个模型,并选择哪个模型的回答更优。平台通过汇总这些对比结果,生成模型在特定任务(如编程或视觉理解)上的排名。
用户选择排名靠前的模型,通常期望该模型在类似但不完全相同的新数据上也能表现优异,即具备良好的泛化能力。
MIT团队此前在统计学和经济学领域研究过泛化问题,发现移除少量数据可能导致模型结论发生变化,表明结论可能仅适用于狭窄场景。他们希望将此分析方法应用于LLM排名平台。
Broderick指出:“用户最终想知道自己是否选到了最好的LLM。如果排名仅由少数提示决定,这说明排名结果可能并不可靠。”

由于数据量庞大,手动测试数据移除对排名的影响几乎不可能。例如,一个排名平台有超过57,000条投票,移除0.1%即57条投票的所有组合数量极其庞大,无法逐一计算。
因此,研究团队基于之前的理论工作,设计了一种高效的近似算法,适配于LLM排名系统。
Broderick表示:“虽然我们有理论证明该近似方法在一定假设下有效,但用户无需完全信任理论。该方法能直接指出影响排名的关键数据点,用户可以删除这些数据重新计算,观察排名是否发生变化。”
结果显示排名极其敏感
应用该技术后,研究人员惊讶地发现,仅移除极少数数据点就能显著改变排名。例如,在一个平台中,移除2条投票(占57,000票的0.0035%)就改变了排名第一的模型。
另一个使用专家标注和高质量提示的排名平台更为稳健,需移除约3%(83条)投票才会导致排名变化。
分析发现,许多关键投票可能源于用户误操作。有时答案明显优劣,但用户却选择了表现较差的模型。Broderick说:“我们无法知道用户当时的想法,可能是误点、分心,或真的不确定哪个更好。关键是避免噪声、用户错误或异常值决定排名第一的模型。”
研究人员建议,收集用户对每条投票的信心度等额外反馈,可提供更丰富信息,帮助缓解此类问题。排名平台也可引入人工审核以评估众包结果。
未来,团队计划继续研究泛化问题,并开发更精细的近似方法,以捕捉更多非稳健案例。
西北大学计算机科学教授Jessica Hullman评价道:“Broderick及其学生的工作展示了如何在现代机器学习模型和数据集规模庞大、计算难以穷尽的情况下,有效估计特定数据对后续流程的影响。该研究揭示了人类偏好聚合方法的强数据依赖性及脆弱性,提醒我们在收集数据时应更加谨慎。”
本研究部分由美国海军研究办公室、MIT-IBM Watson人工智能实验室、国家科学基金会、亚马逊及CSAIL种子基金资助。
