GPTZero称在NeurIPS论文中发现虚构引用 引发学术规范讨论

richlovec 1500_400 (1)
 

AI检测初创公司GPTZero近日表示,在对今年于圣地亚哥举行的神经信息处理系统大会(NeurIPS)上被接收的全部论文进行扫描后,发现部分论文存在虚构引用情况。

据该公司向科技媒体 TechCrunch 介绍,其对本届会议接收的4,841篇论文进行了检测,确认在其中51篇论文中发现了共100处虚构引用。

NeurIPS被视为机器学习和人工智能领域的重要学术会议,论文被接收通常被研究人员视为一项重要成果。报道指出,在当前大型语言模型(LLM)被广泛用于撰写和润色论文文本的背景下,有观点认为研究人员可能也在使用此类工具处理引用等繁琐环节。

从数量上看,GPTZero称确认的100处虚构引用分布在51篇论文中,而每篇论文通常包含数十条参考文献。在成千上万条引用的总体规模下,这一比例被描述为在统计意义上“几乎为零”。

NeurIPS方面在回应最早报道此事的《财富》杂志时表示,即便有约1.1%的论文因使用大型语言模型而出现一个或多个错误引用,这并不必然影响论文研究内容本身的有效性。会议方面强调,引用错误与研究结论是否成立是两个不同层面的问题。

不过,相关各方同时指出,虚构引用问题本身仍不容忽视。NeurIPS长期强调其在机器学习和人工智能领域坚持“严谨的学术出版”,所有投稿论文均需经过多名评审专家的同行评审,评审指引中也包括对虚构内容的标记要求。

在学术体系中,引用被视为衡量研究影响力的重要指标之一,也是研究人员职业发展的一项参考。报道指出,当大型语言模型在生成文本时编造并不存在的文献时,这种“学术货币”的意义可能会被削弱。

在本次事件中,评审专家未能在审稿过程中发现少量由人工智能生成的虚构引用。GPTZero在说明中表示,考虑到顶级会议评审工作量巨大,“没人能责怪评审专家”未能识别所有问题。该公司称,此次调查的目的在于通过具体数据展示,在“投稿洪流”背景下,大量使用人工智能工具撰写论文如何给会议评审流程带来压力,并称这一过程已将部分会议的评审机制“推至崩溃边缘”。

GPTZero还提到一篇发表于2025年5月、题为《人工智能会议同行评审危机》的论文。该论文据称讨论了包括NeurIPS在内的顶级人工智能会议在同行评审方面面临的挑战。

在相关讨论中,有观点提出,研究人员本应对论文中引用的文献有充分了解,并对大型语言模型生成的参考文献进行核查。报道指出,在当前案例中,一个引人关注的现实是:即便是处于全球人工智能研究前沿、同时承受学术声誉压力的研究人员,也未必能在使用大型语言模型时完全避免细节性错误。这一情况被视为对更广泛用户群体使用此类工具时风险的一个提示。


分享:


发表评论

登录后才可评论。 去登录