美国人工智能和数据中心系统的电力消耗正在急剧攀升。根据国际能源署的估算,2024年美国用于人工智能和数据中心的用电量约为 415 太瓦时,占全国能源产出的 10% 以上,而且这一数字预计到 2030 年还将翻倍。
为应对这种难以持续的能耗增长趋势,工程学院的一支研究团队提出了一种高效人工智能系统的概念验证方案。实验结果显示,这一新系统在完成任务时的能耗有望比现有方法低 100 倍,同时在任务准确性方面表现更好。
这一方法由卡罗尔家族应用技术教授 Matthias Scheutz 领导的实验室提出,采用的是神经符号人工智能框架——将传统的神经网络方法与符号推理结合起来,类似于人类会把任务拆解为步骤、把事物归类到不同概念类别的思维方式。
相关研究成果将于 5 月在维也纳举行的国际机器人与自动化会议上正式发布,并收录于会议论文集。目前,论文已在 arXiv 预印本平台公开。
从语言模型到机器人动作
Scheutz 团队长期关注人机交互,因此他们并未直接使用 ChatGPT、Gemini 这类以屏幕交互为主的大型语言模型(LLM),而是聚焦于视觉-语言-动作(VLA)模型。
VLA 模型可以看作是扩展版的大型语言模型,它们不仅处理文本,还具备视觉感知和动作控制能力,适用于机器人场景。此类模型通过摄像头和语言输入获取信息,再输出具体的物理动作,例如驱动机器人的轮子、腿、手臂和手指完成任务。
在传统、资源消耗较高的 VLA 框架下,如果让机器人执行“把积木堆成一座简单的塔”这一指令,系统通常会先扫描周围环境,识别积木的位置、形状和朝向,然后再解析“将每块积木叠放在另一块上”的语言指令。
在实际操作中,系统可能会因为阴影导致的视觉误判而识别错积木形状,或者在放置时出现偏差,甚至因为堆叠策略不当导致积木塔倒塌。

传统人工智能系统的局限
如果类比到大型语言模型,这些机器人执行失败的尝试,就类似聊天机器人在文本或图像任务中给出不准确甚至完全错误的回答。例如,虚构并不存在的法庭案例用于法律简报,或生成带有六根手指的人物图像等。
相比之下,符号推理能够利用抽象规则和类别信息(如积木的形状、质心位置以及拼图规则),构建更通用、更高效的规划策略,而不只是依赖大量样本的统计关联。
神经符号系统为何更高效
“和大型语言模型一样,传统的 VLA 模型主要依据在海量训练场景中学到的统计模式来行动,这很容易出错。”Scheutz 指出,“神经符号 VLA 则可以引入明确的规则,减少在学习过程中盲目的试错次数,更快收敛到有效解法。它不仅执行任务更快,训练所需时间也大幅缩短。”
在使用经典“河内塔”拼图进行测试时,神经符号 VLA 系统的任务成功率达到 95%,而标准 VLA 模型仅为 34%。在更复杂、且机器人从未见过的变体任务中,神经符号系统的成功率为 78%,而标准 VLA 模型则完全无法完成任务。
在训练时间方面,神经符号系统只需约 34 分钟即可完成训练,而标准 VLA 模型则需要超过一天半。更关键的是,训练神经符号模型所消耗的能量仅为传统 VLA 模型的 1%;在执行任务阶段,神经符号模型的能耗也只有 VLA 模型的约 5%。
能源压力与未来路径
Scheutz 将这一差异与当前主流大型语言模型作了对比。“像 ChatGPT 或 Gemini 这样的系统,本质上是在预测序列中的下一个词或下一个动作,这个过程并不总是精确的,容易产生不准确甚至幻觉式的结果。同时,它们的能耗往往与任务本身的复杂度并不匹配。例如,当你在谷歌上搜索时,页面顶部那段由 AI 生成的摘要,可能消耗的能量是下面传统网站列表生成过程的 100 倍。”
随着用户对 AI 服务需求的爆发式增长,以及人工智能在各类工业场景中的深入应用,数据中心之间的“军备竞赛”愈演愈烈。这些大型设施的用电量往往高达数百兆瓦,远远超过许多小城市的整体用电需求。
研究团队在总结中指出,尽管当前大型语言模型和视觉-语言-动作模型极为流行,但它们可能并不是构建节能、高效且可靠人工智能系统的理想基础,甚至可能将我们推向资源瓶颈的边缘。相较之下,引入符号推理的混合神经符号人工智能,有望为未来 AI 的发展提供一条更可持续、更可靠的技术路径。