在汽车工厂里,一名工人能够记住前一天晚上放置半装配零件的储物箱位置,并迅速返回取回它。然而,与她并肩工作的机器人却难以形成和访问这种“时空”记忆。
麻省理工学院(MIT)的研究人员开发了一种长期记忆框架,使机器人能够快速构建并回忆复杂大规模环境的详细心理模型。
未来,这项技术有望让工人只需简单指令,比如“去拿我们昨晚开始组装的零件”,即可让机器人助手自动完成取物任务。
该方法结合了先进的地图表示和机器人长时间行进过程中收集的丰富环境描述,机器人能够快速调用这些记忆,用自然语言回答关于环境的复杂问题。
这一记忆框架在准确性上优于现有最先进的方法,且运行速度足够快,适合移动机器人实时使用。
除了机器人领域的潜在应用外,该方法还可用于增强现实系统,帮助维修人员检测异常,或辅助通勤者导航。
麻省理工航空航天系副教授、信息与决策系统实验室(LIDS)负责人、MIT SPARK实验室主任Luca Carlone表示:“如果我们希望机器人能与人类并肩工作并更好地互动,它们必须使用相同的语言。机器人必须像人类一样理解时间和空间。这正是我们方法的核心——将传统地图转化为基于语言的地图,使机器人更容易思考和通过语言访问。”
该研究由MIT研究生Nicolas Gorlo领衔,前MIT研究员、现德国纽伦堡工业大学教授Lukas Schmid共同参与,成果近期在计算机视觉与模式识别会议(CVPR)上发表。
时空记忆
记忆使人工智能系统(如聊天机器人)能够回答复杂问题,并推理之前与用户的交互。
Carlone说:“我们希望设计一种新的记忆类型——时空记忆,使得AI机器人能够记住真实的交互和传感器观察。就像ChatGPT,但基于现实世界,能回答诸如‘我把钱包放在哪里了?’这类环境相关的问题。”
为此,MIT团队融合了计算机视觉和机器人地图构建两大领域的技术。
多模态计算机视觉模型能理解并详细描述场景中的物体,但通常一次只处理单个标注;而机器人地图框架能创建环境的三维地图(如整栋公寓或校园),但往往缺乏物体的详细描述,且计算成本高。
MIT提出的“随时随地描述任何事物”(DAAAM)方法,结合了两者优势。
机器人在环境中移动时,会为看到的物体附加丰富描述。例如,机器人可能记录MIT校园内某建筑名为Stata中心,具有特定建筑风格,或自行车架上有五辆自行车,其中红色那辆轮胎瘪了。

这些详细信息被存储在空间排列的三维地图中,物体按区域分组。这样机器人就能记住红色瘪胎自行车位于Stata中心外的自行车架上。
然而,现有技术对物体进行丰富描述通常需要几秒钟,无法满足机器人几分钟内可能遇到数百个物体的实时需求。
Carlone补充:“机器人形成空间记忆越快,执行环境中的任务效率越高。”
流程优化
为加速处理,DAAAM在移动中聚合邻近物体,采用优化方法选择关键帧进行标注。这些关键帧能清晰展示多个物体,允许系统并行描述多个项目,计算速度提升十倍。
机器人探索时,将每批标注信息附加到三维地图中特定位置的多个物体上。
Gorlo解释:“我们每个物体只标注一次,因此框架能在大规模环境中实时运行。通过将物体聚类到区域,系统能回答关于环境中物体和位置的多样查询。”
构建空间记忆后,系统需高效从庞大数据库中检索信息。
研究人员利用大型语言模型(LLM)调用多种工具,快速准确地检索特定信息,减少虚假回答,使DAAAM能在几秒内准确响应用户查询。
例如,若询问机器人关于MIT校园某建筑附近雕塑的信息,DAAAM可通过语义搜索工具基于“雕塑”关键词检索,或通过位置工具检索相关信息。
测试显示,DAAAM在不同问题类型上的准确率比其他方法高出21%至53%。
未来,团队计划扩展DAAAM以捕捉环境中发生的重要事件,并引入置信度指标以提升回答质量。
Gorlo表示:“最终,我们希望拥有能完成任何任务的机器人。通过这个框架,我们正努力打造能够执行你任何指令的通用智能体。”
本研究部分由美国陆军研究实验室和海军研究办公室资助。Carlone目前作为亚马逊学者休假,本文描述的工作均在MIT完成,与亚马逊无关。
