科学研究更新速度不断加快,但每年发表的论文数量以百万计,使研究人员难以及时跟进最新进展。尽管人工智能系统具备快速汇总信息的能力,但在生成内容时仍可能出现“幻觉”,即编造信息或引用来源不实。
华盛顿大学与艾伦人工智能研究所(Ai2)的研究团队在评估OpenAI最新模型GPT-4o时发现,其在研究引用方面存在明显问题:伪造引用的比例达到78%至90%。研究团队指出,通用模型(如ChatGPT)通常也难以覆盖训练数据收集之后发表的新论文,从而影响其对最新科研的整合能力。
在此背景下,上述团队开发了开源人工智能模型OpenScholar,定位为面向科学研究整合与引用的专用系统。团队同时建立了首个大型多领域基准ScholarQABench,用于评估模型在整合科研内容与提供可核验引用方面的能力。测试结果显示,OpenScholar在引用来源的准确度上与人类专家相当;在对比评审中,16位科学家在51%的情况下更偏好OpenScholar的回答而非领域专家的回答。
相关研究成果已发表于《自然》杂志。项目代码、数据与演示均已公开并可免费使用。

模型构建与数据基础
高级作者、华盛顿大学保罗·G·艾伦计算机科学与工程学院副教授、同时担任Ai2高级主管的Hannaneh Hajishirzi表示,团队在项目启动并上线演示后,收到的查询量“迅速超过预期”。她称,在审查系统回答的过程中,团队注意到同事及其他科研人员正在积极使用OpenScholar,这反映出科研界对“开源、透明且能整合研究”的系统存在需求。
研究团队训练模型并构建了一个包含4500万篇科学论文的数据集,供OpenScholar检索并在既有研究基础上生成回答。系统采用“检索增强生成”(retrieval-augmented generation)方法,使模型在训练完成后仍可检索新来源、整合信息并给出引用。
首席作者、Ai2研究科学家、华盛顿大学艾伦学院博士生Akari Asai表示,团队早期曾尝试将人工智能模型与谷歌搜索数据结合,但效果不理想:系统可能引用相关性不足的论文、仅引用单篇论文,甚至随机引用博客文章。她称,团队因此决定以科学论文为核心信息源,并让系统能够通过检索结果灵活整合最新研究。
基准测试与对比结果
为评估系统表现,团队建立ScholarQABench基准,收集了3000个查询,并整理了250个由计算机科学、物理、生物医学与神经科学专家撰写的长篇答案,用于对照评测。

Hajishirzi表示,人工智能在现实任务中的能力不断提升,但关键问题在于能否信任其答案的正确性。
在对比测试中,团队将OpenScholar与多款先进模型进行比较,包括OpenAI的GPT-4o以及Meta的两款模型。ScholarQABench通过自动化方式评估答案的准确性、写作质量与相关性等指标。研究团队称,OpenScholar在参与测试的系统中总体表现最佳。
在人工评审环节,团队邀请16位科学家对模型答案与人类专家答案进行比较。结果显示,评审者在51%的情况下更偏好OpenScholar的回答。研究还指出,当将OpenScholar的引用方法与流程与更大型的GPT-4o结合时,评审者在70%的情况下更偏好人工智能生成的答案;而单独使用GPT-4o时,评审者仅在32%的情况下选择其答案。
面向科研使用的后续工作
Asai表示,论文发表量巨大,研究人员无法逐篇跟进,但现有人工智能系统并非围绕科学家的具体需求设计。她称,团队已观察到不少科学家在使用OpenScholar;同时,由于其开源属性,其他研究者也在基于该系统进行改进。
她还表示,团队正在开发后续模型DR Tulu,在OpenScholar成果基础上执行多步骤搜索与信息收集,以生成更全面的回答。
