新算法加速节能训练大模型，大幅减少联邦学习中的数据传输

科学 2026-05-06 人工智能, 联邦学习, 大型语言模型, 模型压缩, 节能计算 1 次浏览

在一项旨在让大型语言模型学习得更高效、更节能的研究中，斯蒂文斯理工学院的研究人员提出了一种新算法，用于优化人工智能在联邦学习场景中的数据共享方式，从而在提升性能的同时显著降低能耗。

像 ChatGPT 这样的大型语言模型规模庞大。为了在不集中用户隐私数据的前提下进行协同训练，研究者通常采用联邦学习方法。但在传统做法中，各参与方需要频繁上传和下载模型的完整更新版本，数据量巨大。这不仅占用大量网络带宽和内存资源，也带来高能耗，导致模型无法高频同步，版本容易滞后，整体训练效率偏低。

“需要共享的数据实在太多了，”斯蒂文斯理工学院的博士生候选人冉逸德指出，他是本次改进工作的主要推动者。“这就像每次只改了几条目，却要把整部百科全书都重新发一遍，其实没有必要。”

为了解决这一问题，冉逸德与导师团队合作，包括斯蒂文斯工程学院计算机科学助理教授、机器学习研究者徐兆卓，以及商学院信息系统与分析助理教授张登辉，共同探索更高效的大模型参数共享机制。

他们基于一个已有共识：大型语言模型的有效学习往往主要依赖于一小部分精心挑选的参数。如果只针对这些关键参数进行更新和传输，就能在保证性能的前提下，让模型更灵活、更快速，并显著降低能耗。在此思路下，团队提出了名为 MEERKAT 的新模型框架，名称取自以敏捷和速度著称的猫鼬。

相关成果发表于题为《Mitigating Non-IID Drift in Zeroth-Order Federated LLM Fine-Tuning with Transferable Sparsity》的论文中，并在 2026 年国际学习表征会议（ICLR）上发表。

与传统联邦学习需要同步整个庞大模型不同，MEERKAT 只共享模型中最重要参数约 0.1% 的更新。

“当只有少数关键定义发生变化时，就不必再传整部百科全书了，”张登辉解释说。通过这种方式，通信数据量被压缩了 1000 多倍，“过去一次更新可能需要几 GB，现在只要几 MB 就够了。”

MEERKAT 的另一项关键改进在于训练误差的处理方式。常规的神经网络训练依赖反向传播，通过计算误差并逐层回传来更新参数，这是当前深度学习的核心算法，但也极其消耗内存和能量。MEERKAT 采用零阶优化思路，只对模型做小幅度调整并观察结果变化，从而在不执行完整反向传播的情况下完成训练更新，进一步降低了计算开销。

由于每次更新的数据规模大幅缩小，参与方可以更频繁地进行同步，这也是提升模型质量的重要因素。

“因为更新非常小，现在数据可以更频繁地在各方之间往返传输，”徐兆卓表示，“结果是共享模型的整体质量有了明显提升。”

研究团队指出，这种新方法显著降低了联邦大模型训练中的计算和通信成本，使资源有限的机构和研究者也更有可能采用先进的人工智能技术。同时，这一方案有望推动 AI 在医疗、教育以及跨机构协作等领域的更公平部署——这些场景往往受隐私保护和数据分散等因素限制，难以进行集中式数据收集，而联邦学习结合 MEERKAT 的高效机制，为此提供了更可行的技术路径。

发表评论

登录后才可评论。去登录