大多数语言通过词语的位置和句子结构来提取意义。例如,“猫坐在盒子上”与“盒子在猫上”表达的意思截然不同。在长篇文本中,如金融文件或小说,这些词语的句法结构往往会发生变化。
类似地,人们在阅读代码或执行带有条件操作的指令时,会跟踪变量状态的变化和顺序推理。这些都是我们期望先进人工智能系统能够擅长的能力。然而,目前大型语言模型(LLMs)主要采用的基于Transformer的注意力机制,在处理这类状态变化和顺序推理时,存在理论和实际的局限性。
注意力机制使模型能够回顾查询或文档的早期部分,并根据训练确定哪些细节和词语最为重要,但该机制本身并不理解词序。它同时“看到”所有输入词(即token),并按呈现顺序处理,因此研究人员开发了位置编码技术来补充这一点。位置编码对于高度结构化的领域(如语言)至关重要。目前主流的位置编码方法是旋转位置编码(RoPE),它仅考虑序列中token之间的相对距离,且与输入数据无关。举例来说,距离相差四个位置的词语(如“猫”和“盒子”)会被赋予相同的固定数学旋转。
MIT和MIT-IBM Watson AI实验室的研究团队提出了一种名为“PaTH Attention”的编码技术,使位置信息变得自适应且具备上下文感知,而非像RoPE那样静态固定。
该论文的资深作者、MIT电气工程与计算机科学系副教授、CSAIL成员及MIT-IBM Watson AI实验室研究员Yoon Kim表示:“Transformer在多领域建模中表现准确且可扩展,但在状态跟踪方面存在限制,而状态跟踪是我们希望AI系统具备的重要能力。关键问题是:如何在保持Transformer的可扩展性和效率的同时,实现状态跟踪?”
本月早些时候,该研究成果在神经信息处理系统大会(NeurIPS)上发表。论文第一作者为MIT电气工程与计算机科学研究生、前MIT-IBM Watson AI实验室暑期实习生Songlin Yang,其他合作者包括斯坦福大学的Kaiyue Wen、微软的Liliang Ren,以及IBM研究院和MIT-IBM Watson AI实验室的Yikang Shen、Shawn Tan、Mayank Mishra和Rameswar Panda。

理解路径
与RoPE为每个词语基于相对距离赋予固定旋转不同,PaTH Attention灵活地将词语间的路径视为由一系列小的、依赖数据的变换组成。每个变换基于一种称为Householder反射的数学操作,类似于一面微小的镜子,会根据经过的每个token的内容进行调整。序列中的每一步都会影响模型对后续信息的解读。累积效果使系统能够模拟词语间意义的变化,而不仅仅是它们的距离。这种方法让Transformer能够跟踪实体和关系随时间的变化,形成一种“位置记忆”。可以将其比作行走在一条路径上,感受环境对自己的影响。此外,团队还开发了一种硬件高效算法,优化了每对token之间注意力分数的计算,使PaTH Attention的累积数学变换被压缩并拆分为更小的计算单元,从而兼容GPU的快速处理。
MIT-IBM研究人员随后在合成和真实任务中测试了PaTH Attention的表现,包括推理、长上下文基准测试和完整LLM训练,以验证其在信息跟踪上的提升。团队测试了模型在多步干扰和多步回忆测试中跟踪最新“写入”命令的能力,这些任务对传统位置编码方法如RoPE来说较为困难。研究人员还训练了中等规模的LLM,并与其他方法进行了比较。结果显示,PaTH Attention在困惑度上有所改善,并在未训练过的推理基准测试中表现优异。他们还评估了在数万token输入下的检索、推理和稳定性,PaTH Attention始终表现出内容感知能力。
Kim表示:“我们发现,无论是在设计用来测试Transformer局限性的诊断任务,还是在真实语言建模任务中,我们的新方法都能超越现有的注意力机制,同时保持其效率。”他还期待这类数据依赖的位置编码技术,如PaTH,能否提升Transformer在结构化领域(如生物学中蛋白质或DNA分析)的表现。
更大规模且更高效的思考
研究人员进一步探讨了如果PaTH Attention更像人类认知,即在决策时忽略旧的或不相关信息,会有怎样的表现。为此,他们将PaTH Attention与另一种位置编码方案——遗忘Transformer(FoX)结合,后者允许模型选择性“遗忘”信息。结合后的PaTH-FoX系统以数据依赖方式降低信息权重,在推理、长上下文理解和语言建模基准测试中取得了优异成绩。由此,PaTH Attention扩展了Transformer架构的表达能力。
Kim指出,这类研究是推动AI“下一次重大突破”的一部分。他解释说,深度学习和生成式AI革命的主要推动力之一,是创造了可广泛应用于多领域的“通用构建模块”,如卷积层、循环神经网络层,以及最近的Transformer。展望未来,准确性、表达力、灵活性和硬件可扩展性将继续是关键因素。他总结道:“现代架构研究的核心任务是设计出既能保持或提升表达力,又具备可扩展性的新型基本构件。”
本研究部分由MIT-IBM Watson AI实验室和Schmidt Sciences的AI2050项目资助。
