开源模型OpenScholar可整合最新科研并准确引用来源，测试表现接近人类专家

科学 2026-03-13 人工智能, 科研工具, 开源模型, 学术引用, 自然杂志 21 次浏览

科学研究更新速度不断加快，但每年发表的论文数量以百万计，使研究人员难以及时跟进最新进展。尽管人工智能系统具备快速汇总信息的能力，但在生成内容时仍可能出现“幻觉”，即编造信息或引用来源不实。

华盛顿大学与艾伦人工智能研究所（Ai2）的研究团队在评估OpenAI最新模型GPT-4o时发现，其在研究引用方面存在明显问题：伪造引用的比例达到78%至90%。研究团队指出，通用模型（如ChatGPT）通常也难以覆盖训练数据收集之后发表的新论文，从而影响其对最新科研的整合能力。

在此背景下，上述团队开发了开源人工智能模型OpenScholar，定位为面向科学研究整合与引用的专用系统。团队同时建立了首个大型多领域基准ScholarQABench，用于评估模型在整合科研内容与提供可核验引用方面的能力。测试结果显示，OpenScholar在引用来源的准确度上与人类专家相当；在对比评审中，16位科学家在51%的情况下更偏好OpenScholar的回答而非领域专家的回答。

相关研究成果已发表于《自然》杂志。项目代码、数据与演示均已公开并可免费使用。

模型构建与数据基础

高级作者、华盛顿大学保罗·G·艾伦计算机科学与工程学院副教授、同时担任Ai2高级主管的Hannaneh Hajishirzi表示，团队在项目启动并上线演示后，收到的查询量“迅速超过预期”。她称，在审查系统回答的过程中，团队注意到同事及其他科研人员正在积极使用OpenScholar，这反映出科研界对“开源、透明且能整合研究”的系统存在需求。

研究团队训练模型并构建了一个包含4500万篇科学论文的数据集，供OpenScholar检索并在既有研究基础上生成回答。系统采用“检索增强生成”（retrieval-augmented generation）方法，使模型在训练完成后仍可检索新来源、整合信息并给出引用。

首席作者、Ai2研究科学家、华盛顿大学艾伦学院博士生Akari Asai表示，团队早期曾尝试将人工智能模型与谷歌搜索数据结合，但效果不理想：系统可能引用相关性不足的论文、仅引用单篇论文，甚至随机引用博客文章。她称，团队因此决定以科学论文为核心信息源，并让系统能够通过检索结果灵活整合最新研究。

基准测试与对比结果

为评估系统表现，团队建立ScholarQABench基准，收集了3000个查询，并整理了250个由计算机科学、物理、生物医学与神经科学专家撰写的长篇答案，用于对照评测。

Hajishirzi表示，人工智能在现实任务中的能力不断提升，但关键问题在于能否信任其答案的正确性。

在对比测试中，团队将OpenScholar与多款先进模型进行比较，包括OpenAI的GPT-4o以及Meta的两款模型。ScholarQABench通过自动化方式评估答案的准确性、写作质量与相关性等指标。研究团队称，OpenScholar在参与测试的系统中总体表现最佳。

在人工评审环节，团队邀请16位科学家对模型答案与人类专家答案进行比较。结果显示，评审者在51%的情况下更偏好OpenScholar的回答。研究还指出，当将OpenScholar的引用方法与流程与更大型的GPT-4o结合时，评审者在70%的情况下更偏好人工智能生成的答案；而单独使用GPT-4o时，评审者仅在32%的情况下选择其答案。

面向科研使用的后续工作

Asai表示，论文发表量巨大，研究人员无法逐篇跟进，但现有人工智能系统并非围绕科学家的具体需求设计。她称，团队已观察到不少科学家在使用OpenScholar；同时，由于其开源属性，其他研究者也在基于该系统进行改进。

她还表示，团队正在开发后续模型DR Tulu，在OpenScholar成果基础上执行多步骤搜索与信息收集，以生成更全面的回答。

发表评论

登录后才可评论。去登录