一种更优的复杂视觉任务规划方法

richlovec 1500_400 (1)
 

麻省理工学院(MIT)的研究人员提出了一种利用生成式人工智能驱动的视觉任务长期规划新方法,该方法在效果上约是现有技术的两倍。该系统通过专门的视觉-语言模型(VLM)识别图像中的场景,并模拟实现目标所需的动作序列。随后,第二个模型将这些模拟结果转换为标准的规划问题编程语言,并对解决方案进行优化。

最终,该系统自动生成一组文件,输入到传统规划软件中,计算出实现目标的具体计划。该两步系统生成的计划成功率平均约为70%,远超传统基线方法的30%。

值得注意的是,该系统能够解决此前未遇到的新问题,适应环境瞬息万变的现实场景。

“我们的框架结合了视觉-语言模型理解图像的优势和形式化求解器强大的规划能力,”MIT航空航天专业研究生、该技术的第一作者郝怡伦表示。“它能从单张图像出发,经过模拟,最终生成可靠的长远规划,适用于多种实际应用。”

论文合作者包括MIT信息与决策系统实验室(LIDS)研究生陈永超,航空航天副教授兼LIDS主要研究员范楚楚,以及MIT-IBM Watson人工智能实验室研究科学家张扬。该论文将在国际学习表征会议(ICLR)上发表。

解决视觉任务的挑战

近年来,范楚楚及其团队致力于利用生成式AI模型进行复杂推理与规划,通常采用大型语言模型(LLM)处理文本输入。然而,许多现实规划问题如机器人装配和自动驾驶依赖视觉输入,单靠LLM难以有效处理。为此,研究团队引入了视觉-语言模型(VLM),这类强大AI系统能同时处理图像和文本。

但VLM在理解场景中物体的空间关系及多步推理方面存在不足,限制了其在长远规划中的应用。相反,科学家们已开发出强大的形式化规划器,能为复杂情况生成有效的长远计划,但这类软件无法直接处理视觉输入,且需要专家知识将问题编码成求解器可识别的语言。

范楚楚团队设计了一个自动规划系统,融合两者优势。该系统名为VLM引导的形式规划(VLMFP),利用两个专门的VLM协同工作,将视觉规划问题转化为形式规划软件可用的文件。

研究人员首先训练了一个名为SimVLM的小型模型,专门用自然语言描述图像场景并模拟动作序列。随后,规模更大的GenVLM模型利用SimVLM的描述生成规划领域定义语言(PDDL)格式的初始文件。

这些文件输入经典PDDL求解器,计算出逐步解决方案。GenVLM将求解器结果与模拟结果对比,迭代优化PDDL文件。

“生成器和模拟器协同工作,确保动作模拟能实现目标,”郝怡伦解释道。

由于GenVLM是大型生成式AI模型,训练时接触过大量PDDL示例,掌握了该形式语言解决多种问题的能力,从而能生成准确的PDDL文件。

灵活且具泛化能力的方法

VLMFP生成两类PDDL文件:领域文件定义环境、有效动作及规则;问题文件定义初始状态和具体目标。

“PDDL的优势之一是领域文件适用于同一环境下的所有实例,这使我们的框架能很好地泛化到未见过的实例,”郝怡伦说。

为实现有效泛化,研究团队精心设计了SimVLM的训练数据,使其理解问题和目标而非死记场景模式。测试中,SimVLM在约85%的实验中成功描述场景、模拟动作并判断目标是否达成。

整体上,VLMFP在六个二维规划任务中成功率约为60%,在两个三维任务(包括多机器人协作和机器人装配)中超过80%。对超过50%的未见过场景生成了有效计划,远超基线方法。

“我们的框架能适应不同情境下规则的变化,赋予系统解决多种视觉规划问题的灵活性,”范楚楚补充道。

未来,团队计划让VLMFP应对更复杂场景,并探索识别及减少VLM产生幻觉的方法。

“从长远看,生成式AI模型可作为智能代理,利用合适工具解决更复杂问题。但什么是合适工具,如何整合它们,仍需深入研究。将视觉规划纳入视野,是这项工作的重要一步,”范楚楚总结。

该研究部分由MIT-IBM Watson人工智能实验室资助。


分享:


发表评论

登录后才可评论。 去登录