研究：用于排名最新大型语言模型的平台可能不够可靠

AI 2026-02-10 大型语言模型, 模型排名, 数据质量, 机器学习, MIT研究 27 次浏览

企业在选择用于销售报告总结或客户咨询分流的大型语言模型（LLM）时，面对数百种不同模型及其多样化变体，性能略有差异，选择难度较大。为了简化决策，许多公司依赖LLM排名平台，这些平台通过收集用户对模型交互的反馈，基于模型在特定任务上的表现对最新LLM进行排序。

然而，麻省理工学院（MIT）的研究人员发现，少量用户交互数据就可能导致排名结果偏差，使得某个LLM被误认为是特定应用场景的最佳选择。研究表明，移除极少部分众包数据即可改变排名靠前的模型。

为此，研究团队开发了一种快速检测排名平台是否存在此类问题的方法。该评估技术能够识别出最影响排名结果的个别投票，方便用户审查这些关键反馈。

研究人员强调，这项工作凸显了对模型排名评估采取更严谨策略的必要性。虽然本研究未专注于解决方案，但提出了改进建议，例如收集更详细的用户反馈以增强排名平台的稳健性。

此外，研究也提醒依赖排名做出LLM选择的用户注意，这些排名可能对企业或组织产生深远且昂贵的影响。

麻省理工学院电气工程与计算机科学系副教授、该研究高级作者Tamara Broderick表示：“我们惊讶于这些排名平台对少量数据的敏感性。如果排名第一的LLM仅依赖两三条用户反馈，而总反馈数以万计，那么不能假设该模型在实际部署时一定会持续优于其他模型。”

该论文由EECS研究生Jenny Huang和Yunyi Shen担任第一作者，IBM研究高级科学家Dennis Wei参与撰写，研究成果将在国际学习表征会议（ICLR）上发布。

数据移除实验

目前主流的LLM排名平台通常让用户提交同一查询给两个模型，并选择哪个模型的回答更优。平台通过汇总这些对比结果，生成模型在特定任务（如编程或视觉理解）上的排名。

用户选择排名靠前的模型，通常期望该模型在类似但不完全相同的新数据上也能表现优异，即具备良好的泛化能力。

MIT团队此前在统计学和经济学领域研究过泛化问题，发现移除少量数据可能导致模型结论发生变化，表明结论可能仅适用于狭窄场景。他们希望将此分析方法应用于LLM排名平台。

Broderick指出：“用户最终想知道自己是否选到了最好的LLM。如果排名仅由少数提示决定，这说明排名结果可能并不可靠。”

由于数据量庞大，手动测试数据移除对排名的影响几乎不可能。例如，一个排名平台有超过57,000条投票，移除0.1%即57条投票的所有组合数量极其庞大，无法逐一计算。

因此，研究团队基于之前的理论工作，设计了一种高效的近似算法，适配于LLM排名系统。

Broderick表示：“虽然我们有理论证明该近似方法在一定假设下有效，但用户无需完全信任理论。该方法能直接指出影响排名的关键数据点，用户可以删除这些数据重新计算，观察排名是否发生变化。”

结果显示排名极其敏感

应用该技术后，研究人员惊讶地发现，仅移除极少数数据点就能显著改变排名。例如，在一个平台中，移除2条投票（占57,000票的0.0035%）就改变了排名第一的模型。

另一个使用专家标注和高质量提示的排名平台更为稳健，需移除约3%（83条）投票才会导致排名变化。

分析发现，许多关键投票可能源于用户误操作。有时答案明显优劣，但用户却选择了表现较差的模型。Broderick说：“我们无法知道用户当时的想法，可能是误点、分心，或真的不确定哪个更好。关键是避免噪声、用户错误或异常值决定排名第一的模型。”

研究人员建议，收集用户对每条投票的信心度等额外反馈，可提供更丰富信息，帮助缓解此类问题。排名平台也可引入人工审核以评估众包结果。

未来，团队计划继续研究泛化问题，并开发更精细的近似方法，以捕捉更多非稳健案例。

西北大学计算机科学教授Jessica Hullman评价道：“Broderick及其学生的工作展示了如何在现代机器学习模型和数据集规模庞大、计算难以穷尽的情况下，有效估计特定数据对后续流程的影响。该研究揭示了人类偏好聚合方法的强数据依赖性及脆弱性，提醒我们在收集数据时应更加谨慎。”

本研究部分由美国海军研究办公室、MIT-IBM Watson人工智能实验室、国家科学基金会、亚马逊及CSAIL种子基金资助。

发表评论

登录后才可评论。去登录