一种更快速的AI功耗估算方法

随着人工智能的爆炸式发展,劳伦斯伯克利国家实验室估计,到2028年,数据中心的电力消耗将占美国总电力的12%。提升数据中心的能效成为科学家们推动AI可持续发展的重要方向之一。

为此,麻省理工学院(MIT)及MIT-IBM Watson AI实验室的研究人员开发了一种快速预测工具,能够告诉数据中心运营者在特定处理器或AI加速芯片上运行某个AI工作负载时的功耗。

该方法能在几秒钟内给出可靠的功耗估算,远快于传统建模技术需要数小时甚至数天的时间。此外,这一预测工具适用于多种硬件配置,甚至包括尚未部署的新型设计。

数据中心运营者可利用这些估算结果,在多个AI模型和处理器之间有效分配有限资源,从而提升能源效率。同时,算法开发者和模型提供者也能在部署新模型前评估其潜在的能耗。

MIT博士后、该技术论文的第一作者Kyungmi Lee表示:“AI可持续性挑战是我们必须回答的紧迫问题。由于我们的估算方法快速、便捷且能提供直接反馈,我们希望它能促使算法开发者和数据中心运营者更多地关注减少能耗。”

论文作者还包括电气工程与计算机科学研究生Zhiye Song,IBM研究及MIT-IBM Watson AI实验室的研究经理Eun Kyung Lee和Xin Zhang,IBM研究可持续计算首席科学家、IBM Fellow Tamar Eilam,以及MIT教务长、电子工程与计算机科学Vannevar Bush教授Anantha P. Chandrakasan。该研究成果本周将在IEEE国际系统与软件性能分析研讨会上发布。

加速能耗估算

数据中心内,成千上万的强大GPU执行操作以训练和部署AI模型。单个GPU的功耗会因其配置和所处理的工作负载不同而变化。

传统的能耗预测方法通常将工作负载拆分为多个步骤,逐步模拟GPU内部各模块的利用情况,但AI工作负载如模型训练和数据预处理庞大,模拟过程可能耗时数小时甚至数天。

Lee指出:“作为运营者,如果想比较不同算法或配置以找到最节能的方案,而单次模拟就需数天,显然不现实。”

为加快预测速度,MIT研究团队尝试利用更简化的信息进行快速估算。他们发现AI工作负载中存在许多可重复的模式,利用这些模式即可快速生成可靠的功耗估算数据。

许多算法开发者会编写程序以最大限度地提升GPU运行效率,例如通过结构化优化将任务分配到并行处理核心,并高效地移动数据块。

Lee解释:“软件开发者使用的这些优化形成了规律性的结构,我们正是利用了这一点。”

研究人员开发了名为EnergAIzer的轻量级估算模型,能够捕捉GPU因这些优化产生的功耗模式。

精准的功耗评估

尽管估算速度快,研究人员发现模型未涵盖所有能耗因素。例如,每次GPU运行程序时,都有固定的能耗用于程序的设置和配置;每次对数据块执行操作时,也会产生额外能耗。

此外,硬件波动或数据访问冲突可能导致GPU无法充分利用带宽,降低运行速度并增加整体能耗。

为考虑这些额外成本和波动,研究团队收集了GPU的实际测量数据,生成了修正项并应用于估算模型。

Lee表示:“这样,我们既能快速估算,又能保证高度准确。”

最终,用户只需输入工作负载信息,如所运行的AI模型及处理的输入数量和长度,EnergAIzer即可在几秒内输出能耗估算结果。

用户还可以调整GPU配置或运行速度,观察设计选择对整体功耗的影响。

在使用真实GPU上的AI工作负载数据测试时,EnergAIzer的估算误差约为8%,与传统需数小时计算的估算方法相当。

该方法还能预测未来GPU及新兴设备配置的功耗,前提是硬件在短时间内未发生重大变化。

未来,研究团队计划在最新GPU配置上测试EnergAIzer,并扩展模型以适用于多GPU协同运行的场景。

Lee总结道:“要真正推动可持续发展,我们需要一款能为硬件设计者、数据中心运营者和算法开发者提供快速能耗估算的工具,提升他们对功耗的认知。EnergAIzer正是朝着这个目标迈出的重要一步。”

本研究部分由MIT-IBM Watson AI实验室资助。


分享:


发表评论

登录后才可评论。 去登录