受核反应堆启发的无水冷却系统,或将重塑数据中心可持续性

richlovec 1500_400 (1)
 

人工智能的快速发展离不开大规模数据中心的支撑。预计到本十年末,数据中心的用电量将占美国总用电量的9%至17%。目前,大约三分之一的数据中心电力被用于为运行人工智能模型的芯片降温。

Ferveret正是瞄准这一环节提升效率。这家初创公司由前麻省理工学院核工程博士后研究员 Reza Azizian 和 MIT 核科学与工程系 Esther and Harold E. Edgerton 副教授 Matteo Bucci 共同创立。他们借鉴核反应堆的冷却思路,开发出一种无需用水、且显著降低电力消耗的芯片冷却技术。

Ferveret 的系统通过将计算机服务器浸没在一种专用液体中来散热,这种液体吸热能力远高于传统风冷方式。与其他液体冷却方案相比,其关键差异在于“气泡”:Ferveret 的自适应相变冷却(APC)技术能在服务器表面形成更小、脱离更频繁的气泡,从而加快热量从芯片向液体的传递。

目前,Ferveret 已与多家企业合作测试其方案,包括数据中心开发与运营商 CleanSpark、人工智能加速器公司 FuriosaAI,以及美国最大的数据中心运营商之一 Switch。

在与加州大学洛杉矶分校 Samueli 工程学院计算机科学系合作的最新研究中,Ferveret 发现,相比当前最先进的液体冷却技术,其 APC 方案可将计算性能效率提升约 15%。

如果再结合 Ferveret 的电力控制系统,对运行条件进行优化,公司表示,数据中心在相同电力条件下,能够从其人工智能模型中多获得约 35% 的令牌(即文本或数据的最小片段)。

“我们的目标是让数据中心尽可能可持续,帮助它们用每一瓦电力产出更多令牌——也就是最有价值的输出,”Azizian 表示。“我们的系统既能支撑更高性能芯片的运行,又能显著减少能源浪费,同时实现零用水消耗。”

从核反应堆到人工智能

Azizian 于 2013 年在麻省理工学院担任博士后期间结识了当时仍是研究科学家的 Bucci。两人曾共同研究核反应堆中的热传递问题。此后,Azizian 进入工业界,将研究重心转向芯片冷却:先后参与微软 HoloLens 增强现实头显项目,随后加入 Nvidia,从事用于训练和运行前沿人工智能模型的图形处理单元(GPU)相关工作。与此同时,Bucci 继续在 MIT 深耕研究,并于 2016 年成为助理教授。

2017 年,Azizian 第一次走进数据中心,被建筑内部密集而嘈杂的巨大风扇震撼——这些风扇负责为设备降温。

“我当时心想,‘天哪,这根本不是给设施降温的正确方式,’”Azizian 回忆说。他指出,空气冷却在某些数据中心仍可能占到 40% 的电力消耗。“这种方式效率并不高,但因为短期内不影响性能,大家就一直沿用这套已经存在 50 年的冷却技术。”

此后,Azizian 开始与 Bucci 探讨:能否把他们在核反应堆热传递优化方面的经验,迁移到数据中心场景中。几十年来,核工程领域一直在寻找更高效的反应堆散热方式。

“热传递效率决定了你能从反应堆堆芯中提取多少能量,这直接关系到收入规模。”Azizian 解释道。

两位创始人于 2021 年正式创立 Ferveret。自 Azizian 第一次走进数据中心以来,行业已经发生了巨大变化。随着人工智能的爆发式增长,芯片厂商不断在单颗芯片上堆叠更多组件,试图在有限的电力供应下挖掘更高算力。

这推动数据中心运营商转向液体冷却——通常采用“浸没式冷却”,即将芯片直接浸入冷却液中。其中效率最高的一类,是让冷却液在芯片表面沸腾。

“液体本身就是比空气更好的热传递介质,这也是为什么把手放进室温水里仍会感觉凉爽。”Bucci 解释说。

“当液体发生沸腾时,散热效率会进一步提升,因为相变需要大量能量,而这正是从芯片上带走的热量。这样一来,你就可以在芯片与液体之间仅有很小温差的情况下,传递大量热量。”

不过,让液体沸腾也会显著增加系统复杂度:运营方必须对气泡进行收集和再冷凝,同时精确控制压力、温度和液体储量。

Ferveret 的系统借鉴了核反应堆中的“亚冷却沸腾”过程。它使用一种低沸点液体,并且不含许多现有方案依赖的 PFAS 类“永久化学品”。在芯片表面,这种液体会形成比传统浸没式冷却更小的气泡。

这些微小气泡更容易从表面脱离,并在周围液体中迅速冷凝,从而加快芯片表面的“再润湿”循环,整体提升热传递速率。

Ferveret 将 APC 系统封装在小型模块化盒体中,每个盒子内放置一台服务器。创始人表示,这种模块化设计有利于部署和维护。

“液体和相变特性让我们可以实现过去难以做到的形态设计。”Azizian 说。“大多数浸没式冷却方案都是一个大水箱,把服务器整排浸进去。我们则采用更小的模块化机架式方案,可以直接适配现有基础设施,部署起来更灵活。”

此外,Ferveret 还提供配套控制软件,可实时调节每台服务器的功耗,进一步提升整体效率。

“我们提供的是一整套系统,包括冷却盒、机架、冷却分配单元,以及用于测量温度和压力的传感器。”Bucci 介绍道。“我们的软件会监控这些传感器数据,优化每个盒子内部的运行条件,确保系统能耗降到最低。”

用更少资源支撑人工智能

除了提升数据中心的运行效率,Ferveret 也希望通过其技术增强数据中心的可持续性,使其更容易在偏远地区、并更多依赖可再生能源运行。

“阳光最充足的地方往往缺水,而我们的无水方案可以让你在有大量太阳能、却缺乏冷却水的地区建设数据中心。”Bucci 说。

“这项技术有助于在资源通常较为紧张的地区部署数据中心,包括非洲、中东,以及美国的部分区域。这是一个非常重要的突破。”

Ferveret 正在与多家被称为“超级规模云服务商”的大型企业洽谈合作,目前也是 Nvidia 创业项目 Inception 计划的一员。公司计划在今年晚些时候公布进一步的合作扩展。之后,两位创始人希望能快速推广这项技术,让人工智能产业在持续扩张的同时,尽量减轻对地球资源的压力。

“整个计算行业都面临电力获取的巨大挑战,很多地区还叠加了水资源紧张的问题。”Azizian 表示。“随着行业发展,这些约束只会越来越严。数据中心运营商最核心的诉求,是在既有电力条件下产出更多令牌。我们已经证明,这一点是可以做到的。”

本文经 MIT 新闻(web.mit.edu/newsoffice/)授权转载,该网站专注报道 MIT 的研究、创新与教学相关内容。


分享:


发表评论

登录后才可评论。 去登录