人工智能在处理长文档时,一个突出问题是容易在摘要中生成与原文不符的内容,即所谓的“幻觉”。这些错误不仅会传播不实信息,还迫使人类花费大量时间逐条核查,严重影响效率。
为缓解这一问题,一组计算机科学家提出了一个新的算法框架,从自然界的鸟群行为中汲取灵感,模拟鸟类高效自组织的方式。该框架作为大型语言模型(LLM)的预处理步骤,先对长文档进行结构化压缩,再交由模型生成摘要,从而提升长文档摘要的可靠性。
这项研究发表在期刊《人工智能前沿》上。
研究团队首先分析了AI代理在长文档摘要中出错的根源,随后据此设计出“鸟群算法”。
这些AI系统基于专门用于自主检索、写作和总结的LLM。尽管它们在生成文本方面表现出色,但在保证摘要准确性和忠实度方面仍存在明显不足。
纽约大学库朗数学、计算与数据科学学院计算机科学教授、预测分析与人工智能研究实验室主任 Anasse Bari 指出:“当输入文本过长、噪声过多或重复严重时,模型性能会下降。AI代理和LLM容易在这种情况下丢失关键信息,让重要内容被淹没在无关信息中,甚至完全偏离原始材料。”
基于对这一缺陷的分析,Bari 与合著者、纽约大学计算机科学研究员 Binxu Huang 借鉴鸟群这种有序且稳定的聚集方式,将其转化为生成式AI的预处理机制。
在他们的方法中,长文档中的每个句子——无论是科学论文还是法律分析——都被视作一只“虚拟的鸟”。算法通过评估句子的位置信息、主题中心性以及与整体话题的相关程度,将这些句子自动聚成若干簇,类似鸟群在空中自发形成的群体结构。
完成聚类后,每个簇会被压缩为最具代表性的句子,以此减少冗余、保留要点。最终得到的一组代表性句子构成一个结构化、简洁且精炼的文本,再作为输入交给LLM生成最终摘要。
Bari 表示:“我们的目标是让AI模型在生成摘要时更紧密地依托原始材料,同时在此之前尽可能去除重复和噪声。”他此前也曾利用自然界现象设计算法,以改进在线搜索效果。
算法的两大阶段
阶段一:为每个句子打分
首先,对文档中的每个句子进行清洗,只保留名词、动词和形容词,去除冠词、介词、连词以及标点符号。研究人员使用多种自然语言处理技术,将多词术语合并为单一概念(例如将 “lung cancer” 转为 “lung_cancer”),以保证语义完整。

接着,算法将句子转换为数值向量,这些向量综合了词汇、语义和话题等多种特征。随后,系统根据句子在全文中的中心性、所在章节的重要程度以及与摘要目标的契合度为其打分。引言、结果和结论等关键部分的句子会获得额外权重。
阶段二:利用鸟群算法保证多样性
如果仅按得分从高到低选句,很容易出现内容高度重复的问题,反而削弱了“鸟群效应”。例如,在一篇癌症研究论文中,得分最高的前五个句子可能都集中在治疗结果上,忽略了背景、方法或结论。
为此,框架将每个句子视作一只鸟,并根据其语义特征在一个虚拟空间中定位。借鉴自然界中鸟群的三条基本规则——
- 凝聚:靠近附近的鸟;
- 对齐:与邻居保持相似方向;
- 分离:避免过度拥挤;
语义相近的句子会自然聚集成簇,同时不同簇之间保持足够差异。每个簇内部会形成一个“领导者”句子,其他句子则附着在距离最近的领导者周围。
在最终摘要构建阶段,算法从每个簇中选取得分最高的句子,确保摘要能够覆盖背景、方法、结果和结论等不同方面,而不是反复强调同一主题。随后,这些代表性句子会被重新排序,输入到由LLM驱动的AI代理中,生成连贯流畅且紧扣原文的摘要。
实验结果与局限
研究人员在 9000 多份文档上测试了该算法,将其与仅使用LLM的AI代理进行对比。结果显示,结合鸟群算法预处理的框架,在事实准确性方面明显优于单独依赖LLM生成的摘要。
Bari 强调:“我们的核心思路是构建一个实验性框架,作为AI代理或LLM接收大规模文本前的预处理步骤,而不是与LLM或AI代理竞争。”
“这个框架会从文档中筛选出最重要的句子,构建更紧凑的文本表示和摘要,去除重复和噪声,从而提升AI后续处理的质量。”
同时,作者也坦言,这一方法并非万能。
Bari 表示:“我们的目标是帮助AI生成更贴近原始材料的摘要。这种方法有望在一定程度上缓解幻觉问题,但我们并不认为这已经是彻底的解决方案——事实并非如此。”
