视频驱动的人工智能让机器人具备“视觉想象力”

科学 2026-04-02 人工智能, 机器人, 计算机视觉, 世界模型, 机器学习 40 次浏览

在让机器变得更具适应性和直觉性的探索中，Kempner研究所研究员杜一伦及其合作者提出了一种全新的人工智能系统，使机器人在执行动作前就能“看到”自己接下来可能会做什么。该系统通过视频帮助机器人想象未来情景，有望重塑机器人在现实世界中的导航和交互方式。

这一成果已在预印本平台 arXiv 以及相关博客文章中公布，体现了研究人员在“机器人应如何学习”这一问题上的思路转变。

从语言驱动到视觉驱动的机器人智能

近几年，研究者提出了视觉-语言-动作（VLA）系统，将视觉感知、语言理解和动作控制整合到统一的机器人基础模型中，从而赋予机器人更通用的能力，减少在新任务或新环境下的额外训练需求。

但即便是当前最先进的系统，通常仍依赖大型语言模型（LLM）把语言指令转化为动作，在新情境中泛化能力依旧有限。为此，杜一伦团队选择绕开语言，转而用视频来训练系统。

“语言几乎不直接描述物理世界中事物是如何运动和变化的。”杜一伦解释说，“我们的思路是利用海量互联网视频数据来训练模型，因为这些视频蕴含了丰富的任务物理和语义信息。”

让机器人“预演”未来

借助 Kempner 人工智能集群——学术界最强大的超级计算平台之一，团队将大规模互联网视频数据编码为一个“世界模型”，即机器人对物理世界的内部表征。

关键在于，这一模型可以让机器人生成关于未来场景的短视频片段，相当于在脑海中“预演”接下来可能发生的事情。

“从互联网数据中学到的视频生成能力，有助于把知识迁移到机器人基础模型中。”杜一伦说，“我们的想法是合成一些视频，直接展示机器人在新任务中应该如何行动。”

换句话说，机器人可以通过视频模拟不同的未来走向，以视觉方式预见自身动作的结果。研究人员已经证明，这种“视觉想象”能力可以帮助机器人在陌生环境中完成多种任务。

“因此，我们得到了一个能够广泛预测环境中未来可能动作及其后果的模型。”杜一伦总结道。

物理智能的难点

这项工作也凸显了关于“智能”本质的一些关键认识。人们往往把智能与抽象推理联系在一起，比如数学证明或下国际象棋，但真正的物理智能，是在复杂、多变的现实世界中感知、行动和适应的能力。

“物理智能之所以困难，很大程度上是因为环境极其多样。”杜一伦指出，“无论你在家里、户外、博物馆、水下还是空中，人类都能在截然不同的环境中有效感知、适应和导航。”

另一个挑战在于，物理智能总是随时间展开。“你不会只做一个孤立的动作，而是要把一系列动作按正确顺序协调起来，才能完成任务。”他说，“下国际象棋时，你可以一次性看到整个棋盘再决定下一步；而在物理世界中，时间依赖性要强得多。”

杜一伦和团队正在推动机器人利用视频，不仅预测下一步动作，而是预测一连串动作及其后果。“在视频生成中，模型直接预测世界在视觉上的演变，这比语言更贴近物理规律。”他说。

向类生物理解方式迈进

通过构建以感官模态（尤其是视觉）而非语言为核心的机器人基础模型，团队正推动机器人朝着更接近生物体的理解方式发展。

“我们并不是为了下国际象棋而进化的。”杜一伦指出，“但我们经历了数亿年的进化，才发展出高度智能的运动控制能力。”这一进化视角对人工智能研究具有重要启发。

“看起来，打造智能机器人的正确路径，并不是主要依靠语言信息来训练模型。”他说，“语言并没有教会我们如何在物理世界中互动。”

展望后续工作，研究人员计划把这种视觉想象能力与长期规划和记忆机制结合起来。“比如，当给机器人一个长期目标——在一栋房子里完成导航任务时，它如何记住过去的经历？”杜一伦提出这一问题。他认为，新一代机器人基础模型有望给出答案。

团队还打算在更加动态、复杂的现实场景中检验该模型。

“目前，我们的大部分实验任务都发生在相对静态的环境中，机器人可以拾取物体并进行简单交互，环境本身变化不大。”杜一伦说，“但在更动态的环境中，机器人必须考虑物体的重量、状态变化以及不断变化的条件。如何处理这些物理动态，是接下来一个非常令人期待的研究方向。”

发表评论

登录后才可评论。去登录