韩国团队推出基于以太网的内存扩展技术,破解大规模AI训练“内存墙”

richlovec 1500_400 (1)
 

韩国研究团队近日宣布,成功研发出一项有望从根本上缓解大规模人工智能(AI)训练中“内存不足”难题的关键技术。这项基于以太网的下一代内存扩展方案,被视为推动未来AI与大数据基础设施革新的重要突破。

韩国电子通信研究院(ETRI)开发的这项新技术名为 OmniXtend。它针对大规模AI训练中最棘手的两个问题——GPU内存容量受限和数据移动开销过大——提出了解决思路。

近年来,随着大模型和高性能计算(HPC)需求急剧上升,待处理数据量呈指数级增长。尽管GPU算力不断提升,但受制于内存容量和带宽的“内存墙”问题始终难以突破,导致整体计算效率在大规模训练场景下明显下降。

ETRI的OmniXtend通过采用标准以太网作为内存互联基础,将服务器与各类加速器之间的内存进行共享,使分布在不同节点上的资源可以被视作一个统一的大型“内存池”。

换句话说,原本紧耦合且局部受限的内存被解耦并通过网络暴露出来,系统可以根据AI工作负载的需求,动态、弹性地分配和扩展内存容量。

随着AI模型规模持续膨胀,对内存的需求也不断攀升,“以池化方式共享和利用内存的可扩展架构”正逐渐成为下一代AI基础设施的核心方向。OmniXtend正是这一趋势下的代表性技术之一。

该方案展示了基于以太网的可扩展共享内存架构,在超大规模AI训练场景中兼顾性能、扩展能力和成本效益:

  • 通过降低数据移动延迟,加快AI训练速度;
  • 在无需更换服务器的前提下扩展内存容量,减少数据中心建设与运维成本。

传统依赖PCIe等高速串行接口的系统架构,在设备间连接距离和整体扩展性方面存在天然限制。而OmniXtend利用现有以太网交换机,将多台物理分散的设备聚合为统一的内存池,更适合构建高度可扩展的大规模AI系统环境。

在具体实现上,ETRI团队开发了基于现场可编程门阵列(FPGA)的内存扩展节点,以及基于以太网的内存传输引擎等关键模块,并完成了系统稳定性的验证。

在实际演示中,研究人员成功展示了多台设备在以太网环境下组成共享内存池,并能够实时访问彼此内存的能力。

此外,团队还利用大型语言模型(LLM)进行计算负载测试,确认OmniXtend架构在真实AI训练场景中同样能够带来性能收益。

实验结果表明,在本地内存不足的条件下,LLM推理性能会明显下降;而通过以太网扩展内存后,性能恢复幅度超过两倍,基本可维持与传统“内存充足”环境相近的处理水平。

ETRI计划在 2025 年 5 月于法国巴黎举行的 “RISC-V Summit Europe 2025” 以及美国圣克拉拉的 “RISC-V Summit North America 2025” 上正式发布这一技术,并已在相关社区引发关注。

在标准化方面,ETRI还牵头参与 Linux 基金会 CHIPS 联盟下的互联工作组,推动AI网络与内存扩展相关的开源标准制定与全球推广。

未来,ETRI打算通过技术转让等方式,重点面向数据中心硬件与软件企业推广OmniXtend,加速其商业落地。该技术预期将应用于AI训练与推理服务器、内存扩展设备以及网络交换机等领域,对下一代AI基础设施市场产生实质性影响。

同时,ETRI还计划开展后续研究,将该技术扩展到汽车、船舶等对可靠性要求极高的嵌入式系统中,用于构建大容量内存互联,并进一步推进跨异构加速器(如NPU、GPU、CPU)的共享内存架构。

ETRI未来计算研究部助理副院长金康浩表示,研究院将通过新项目大幅拓展以神经处理单元(NPU)和各类加速器为核心的内存互联技术研究。他补充称,团队将持续推进技术演进并加强国际合作,力争让该技术在全球AI与半导体企业的下一代系统中得到广泛应用。


分享:


发表评论

登录后才可评论。 去登录