韩国团队以光互联重构AI数据中心计算资源

richlovec 1500_400 (1)
 

韩国研发出基于光交换的下一代AI数据中心技术

韩国电子通信研究院(ETRI)宣布,成功开发出一种基于光交换机的数据中心资源互联新技术——“光解聚”(Optical Disaggregation,OD)。这是全球首个能够通过“光”来自由连接和断开内存、加速器等核心计算资源的下一代人工智能(AI)数据中心技术。

这一技术被视为应对AI服务迅速扩张所带来的算力资源紧张问题的关键型下一代光网络方案,有望让未来数据中心运行得更快、更高效。

传统架构的瓶颈:资源被“锁”在单机内

目前主流数据中心采用以服务器为中心的架构设计:CPU、内存、存储以及加速器(如GPU)被固定组合在单台服务器内部。

在这种架构下,应用只能使用所在服务器内部有限的资源,难以跨服务器灵活调度,导致整体资源利用率不均衡。例如,有的服务器内存被严重占用但CPU闲置,而另一些服务器则只高负载使用CPU,内存却大量空闲,整体效率明显下降。

同时,大多数数据中心仍依赖基于电包交换的交换机进行数据转发。在数据交换过程中,信号需要多次完成光-电-光转换,带来额外时延。这类时延会限制远程内存访问和大规模AI训练等对延迟极为敏感的任务性能。

光解聚(OD):用光“拼装”远程算力

ETRI提出的光解聚技术从架构层面突破了上述限制。当某台服务器的内存或加速器资源不足时,可以通过光交换机在极短时间内将远程资源“接入”到该服务器。

借助这一机制,数据中心可以在需要时,以精确的数量、在精确的时间窗口内,快速而灵活地连接或释放内存与加速器资源,从而支撑AI训练、大规模数据分析等高性能计算任务的弹性需求。

全球首例:CXL与光交换机深度结合

该技术在国际技术竞争中具有重要意义。研究团队首次将计算快连(Compute Express Link,CXL)标准与光交换机进行结合,实现了基于CXL协议的资源通过光网络进行互联的验证,这是全球首个此类示范。

为此,ETRI构建了一个验证系统,集成了其自主开发的CPU适配器、内存刀片、加速器刀片以及OD管理器。通过这一系统,研究人员成功演示了光解聚技术的实际运行效果。

实验结果表明,当服务程序提出额外资源需求时,系统能够自动配置光路,实时分配所需的内存和加速器资源,并保持服务稳定运行。换言之,研究团队首次实现了通过软件控制,在数据中心内部以光速完成资源间连接与调度的系统。

专利与学术认可:技术路线获国际肯定

在知识产权方面,ETRI已获得与该技术应用相关的CXL原创专利,并围绕相关关键技术申请了47项国内外专利。

研究成果已在光纤通信会议(OFC)和欧洲光通信会议(ECOC)等光通信领域最具权威性的国际会议上发表,获得国际学术界的认可。

此外,该项目还被韩国科学技术信息通信部评选为2023年“全国百项优秀研发成果”之一,进一步印证了其技术水平和应用潜力。

面向可持续数据中心的关键一步

ETRI光网络研究部主任李俊基表示,随着AI服务的持续增长,全球数据中心的资源消耗正在急剧攀升。本次研究成果将成为通过高效共享和利用内存及加速器资源,缓解数据中心算力短缺的重要契机,并将加速向可持续未来数据中心形态的转型。

应用前景:从国家AI基础设施到绿色数据中心

ETRI计划将光解聚技术应用于多个关键领域,包括:

  • 国家级AI基础设施的升级与扩展
  • 云计算与超级计算的深度融合
  • 支撑产业创新的绿色数据中心建设

通过在这些场景中部署基于光交换的资源解聚与重构能力,ETRI希望推动数据中心在性能、能效和灵活性方面实现同步提升。


分享:


发表评论

登录后才可评论。 去登录