未査読論文リポジトリ「arXiv」のコンピュータサイエンス分野で編集委員会を率いるトーマス・G・ディータリッヒ(Thomas G. Dietterich)于 2026 年 5 月 15 日(当地时间)在 X 平台发文,详细说明了使用生成式 AI 工具撰写并投稿至 arXiv 时,作者应承担的责任范围。
根据 arXiv 公布的官方审核与管理方针,如果作者在论文中使用了生成式 AI 语言工具,而由此产生了不当表述、抄袭、偏见、事实错误、错误或虚构的参考文献、具有误导性的内容等,一旦这些内容被纳入科学著作,责任将完全由作者承担。迪ータリッヒ进一步在 X 上补充表示,如果存在作者未对大语言模型(LLM)输出进行核查的明确证据,arXiv 将对相关作者采取最长一年禁止投稿等严厉措施。
不禁止使用生成式 AI,但所有内容由作者负责
目前 arXiv 并未一刀切地禁止在论文写作中使用生成式 AI 语言工具。事实上,从简单工具到复杂系统,各类辅助写作与分析工具早已广泛应用于论文创作,围绕 AI 语言工具的使用规范,学界也仍在持续讨论。
不过,arXiv 要求:如果在论文中以重要方式使用了生成式 AI 工具,作者应按照各学科既有的方法论规范进行说明与披露。同时,arXiv 明确规定,不得将生成式 AI 语言工具列为论文作者。
这一方针的核心在于:无论内容是如何生成的,投稿内容的最终责任都在作者。即便是 AI 生成的文字、图表或参考文献,只要被作者纳入论文并提交至 arXiv,作者就必须事先进行核查,并对其准确性与合规性负责。
未核查的 LLM 输出或被处以一年禁投
迪ータリッヒ在 X 上指出,如果有足够且明确的证据表明,论文中存在的内容是由 LLM 生成,而作者并未对这些输出进行必要的核查与修订,arXiv 将对相关作者实施最长一年禁止投稿的惩戒。
他还提到,在禁投期结束后,相关作者若要再次向 arXiv 投稿,可能需要证明其论文已被可信的、经过同行评审的期刊或会议接收,以此作为恢复投稿资格的条件之一。
需要注意的是,“一年禁投”目前尚未直接写入 arXiv 官方管理方针的正文条款中,而是由迪ータリッヒ在 X 上对具体执行方式所作的补充说明。也就是说,arXiv 的正式文件中,重点仍是关于生成式 AI 使用所对应的作者责任原则;至于禁投等具体惩戒措施,则应理解为在该原则框架下的实际操作规则。

生成式 AI 工具能够快速生成自然流畅的文本,但也可能编造并不存在的参考文献,给出错误解释,或者产生涉嫌抄袭、带有偏见的内容。即便这些问题源自 AI 的“幻觉”或训练数据缺陷,一旦被作者直接纳入论文并公开发布,“是 AI 生成的”并不能成为作者免责的理由。

LLM 生成论文激增是重要背景
早在 2025 年 10 月,arXiv 就已经对计算机科学类别中的综述论文(review)和立场论文(position paper)投稿规则进行了调整。新规则要求:此类论文在投稿至 arXiv 之前,必须已经被某个经过同行评审的期刊或学术会议接收。
这一调整与生成式 AI、尤其是大语言模型的普及密切相关。借助这些工具,研究者可以在短时间内生成大量并不包含实质性新研究成果的综述类文本。arXiv 在官方博客中指出,投稿数量的增长在全站范围内都存在,但在计算机科学类别尤为突出。
该博客提到,arXiv 每月会收到数百篇综述论文,其中相当一部分并未对尚未解决的研究问题进行深入讨论,更接近于“带注释的文献列表”,而非真正具有学术贡献的综述。对于依赖志愿者担任审核与版面管理工作的 arXiv 来说,要在内部对如此庞大的投稿量进行严格质量控制,难度极大。
在快速共享与学术可信度之间寻找平衡
arXiv 本质上是一个用于快速共享研究成果的预印本(preprint)平台,而非正式的、经过完整同行评审的期刊。平台会进行一定程度的审核与筛选,但这并不等同于严格的学术审稿流程。因此,在投稿前对内容进行核查、纠错与删改的责任,仍然主要落在作者身上。
借助生成式 AI,研究者可以在极短时间内生成形式上“像论文”的文本,甚至附带看似规范却并不存在的参考文献。这种能力一方面提高了写作效率,另一方面也放大了错误与不当内容被快速传播的风险。
arXiv 当前的方针,并非否定或禁止 AI 工具本身,而是强调:真正不可接受的是,作者在未充分核查的情况下,将 AI 输出直接当作研究成果对外发布。在继续发挥预印本平台“快速共享”的优势的同时,如何维护学术信息的可靠性与可追溯性,正成为 arXiv 以及整个学术界必须共同面对的问题。
