人工智能写作盛行?先问一句:他们怎么知道的
佛罗里达大学计算机与信息科学工程系教授兼临时系主任 Patrick Traynor 博士看到媒体报道称“越来越多科学论文由人工智能撰写”时,心里冒出的第一个问题是:“他们怎么知道的?”
他非常清楚,目前用来判断出版物中是否含有人工智能生成文本(AIGT)的检测器,本身也是基于人工智能的大型语言模型(LLM)。而那些可能滥用 AI 的不诚实研究者,用的正是同一类模型来生成论文内容。
这些检测工具到底有多可靠?研究结论是:远不如想象。
论文结论:现有检测器不适合高风险场景
在即将于本周举行的 2026 年 IEEE 安全与隐私研讨会(SP2026)上,Traynor 与合作者将发表论文,系统评估当前主流 AIGT 检测器的表现。团队的结论是:这些检测器既不有效,也不稳健,无法作为判断文本是否由 AI 生成的可靠依据。
研究人员直言,目前市面上可获得的 AIGT 检测工具“并不适合在学术或其他高风险环境中部署”。换句话说,在结果攸关声誉、学位或职业前途的场合,这些工具并不可信。
这篇题为《人工智能写了我的论文,而我得到的只是这个假阴性:衡量商业人工智能文本检测器的有效性》的论文由 Seth Layton 博士、Bernardo B.P. Madeiros 和 Kevin Butler 博士与 Traynor 共同完成。他们测试了多款常见商业 AIGT 检测方案,发现其性能极不稳定:
- 假阳性率(人写的被判成 AI 写的)在 0.05%–68.6% 之间浮动;
- 假阴性率(AI 写的被判成人写的)则在 0.3%–99.6% 之间。
简单“改写”就能轻松绕过检测
研究团队还发现,只需对大型语言模型的输出做非常简单的调整,检测器几乎就会“失明”,难以再区分 AI 文本和人类文本。
“这些现有工具既不可靠也不够稳健,根本不足以用来衡量问题的严重程度。”Traynor 说,“我们不能用它们来裁决这类重要决定。很多人的职业生涯都系于此。”
《自然》杂志近期一篇报道也提到类似担忧。记者 Miryam Naddaf 写道,研究界不少人担心,由大型语言模型生成的低质量甚至完全伪造的研究,可能绕过现有质量控制体系,进而“污染”科学文献体系。
但 Traynor 团队指出,现阶段的检测工具并不足以支撑这类判断。也就是说,尽管许多人直觉上认为 AI 在学术写作中的使用已经“泛滥”,但目前缺乏可靠数据来量化这一现象。
学术声誉风险:指控本身就是伤害
对 Traynor 而言,这个问题带有明显的个人色彩。他强调,在学术界,个人价值在很大程度上是通过其智力成果和发表记录来衡量的。一旦有人被怀疑或被指控在论文中使用了 AI 生成文本,其声誉就可能受到长期影响,甚至直接波及职业发展。

如果用的是不可靠的检测工具,这种风险就更难以接受。
研究方法:用旧论文生成“AI 克隆”再统一检测
这项研究的方法本身就带有“元研究”的意味。团队选取了 ChatGPT 出现之前提交给顶级安全会议的所有论文,约 6000 篇,作为“人类写作”的基准语料。
随后,他们让大型语言模型为这些论文生成对应的“AI 克隆版本”,形成一套包含人类原文与 AI 版本的混合数据集。接着,研究人员使用市面上五款最流行的商业 AIGT 检测器,对这一合并数据集进行评估。
结果显示,虽然其中两款检测器在初始测试中表现尚可,但只要对 AI 文本做出极其微小的修改,其检测性能就会大幅下滑。
研究人员只做了一件事:要求大型语言模型在生成论文 AI 版本时使用更复杂的词汇——他们将这种策略称为“词汇复杂度攻击”。在这种情况下,检测器更容易被“华丽”的用词迷惑,错误判断文本来源。
换言之,AIGT 检测器很容易被稍加修饰的语言风格所欺骗。
不是反对 AI,而是反对“盲信” AI
尽管研究结果对 AIGT 检测器相当不利,但 Traynor 和团队并不是人工智能的反对者。相反,他们认为,大型语言模型和其他 AI 技术在加速科学研究、帮助发现新知识方面具有巨大潜力。
Traynor 提醒,人们需要警惕一种潜在误解:把 AI 当成“无所不知的神谕”。
“它不是神谕,它并不总是知道答案。”Traynor 说,“它很乐意给我们答案,但这些答案是否有价值,仍然需要人来判断。这篇论文告诉我们,尽管有许多研究声称某个比例的学术成果是 AI 生成的,但实际上,我们并没有足够可靠的工具来测量这一点。”
合著者 Layton 也表示,这项研究希望提醒公众,对所有与 AI 相关的断言都应保持审慎态度,就像科学家对待任何证据时保持怀疑一样。
Traynor 再次强调:“我们要求,这些说法必须有充分的证据来支撑其正确性。”
