科学论文的数量正以极快的速度增长,研究人员甚至难以全面掌握自己细分领域内的全部成果。为从庞杂的信息中提炼出新的研究思路,卡尔斯鲁厄理工学院(KIT)的研究人员与多家科研机构合作,利用人工智能系统性分析材料科学文献,挖掘潜在的新研究方向。相关工作已发表在期刊《自然机器智能》(Nature Machine Intelligence)上。
材料是众多关键技术的基础,例如电池、太阳能电池、电子器件以及各类医疗应用。因此,材料科学本身具有高度的交叉性,对多个研究与技术领域产生深远影响,也由此催生了数量庞大的科研论文。
不过,这些论文中蕴含的发现,只有在能够识别出其中的趋势和概念之间的关联时,才真正具有价值。在这一背景下,研究团队提出了一种系统分析科学论文的新方法。
KIT纳米技术研究所的 Pascal Friederich 教授表示:“我们的目标是通过揭示新的研究路径和跨学科合作机会,来支持研究人员的创造性思考过程。”
结合大型语言模型与机器学习
在该项目中,研究人员将大型语言模型(LLM)与机器学习(ML)方法相结合。首先,大型语言模型从期刊文章中自动识别关键术语和核心科学概念。基于这些信息,系统构建出一个概念图谱:这是一个知识网络,每个关键词对应图谱中的一个节点。
随后,第二个机器学习模型负责在这些节点之间建立联系,尤其关注在科学论文中频繁共同出现的术语组合。

“举例来说,如果我们的 LLM 发现‘钙钛矿’和‘太阳能电池’这两个术语在文献中经常一起出现,它就会在概念图谱中为它们之间添加一条新的连接线。”该研究的第一作者、KIT 计算机科学专业学生 Thomas Marwitz 解释道。
“接下来,机器学习模型会分析这些连接随时间变化的趋势,从而预测哪些科学概念的组合在未来两到三年内可能变得更加重要。”
这一机器学习模型通过对多年间术语之间连接强度和频率的变化进行量化分析来实现预测。当某些概念之间的连接显著增加时,往往意味着一个新的研究方向正在形成;相反,如果连接逐渐减少,则可能表明相关主题的研究热度在下降。
为新研究方向提供启示
分析结果可以帮助研究人员关注此前较少被系统研究的概念组合,从而发现潜在的新课题。通过与领域专家的访谈,研究团队发现,专家们确实认为部分由人工智能系统给出的建议具有创新性和发展潜力。
“我们并不想取代研究人员。”Friederich 强调,“我们的系统并不是一台‘发明机器’,而是一种分析工具,可以更高效地帮助识别新的想法和合作机会。我们的目标是为科学创造力提供有针对性的支持。”
这项研究展示了如何利用人工智能对海量科学文献进行系统化分析,并从中提取结构化的知识图谱和趋势信息。研究人员指出,这种方法不仅适用于材料科学,也有望推广到其他学科领域,用于识别新兴研究方向和未来热点。
