教会机器人像人类一样灵巧地操控物体,一直被视为机器人学中最棘手的难题之一。比如在手中灵活旋转物体,或让两只机械臂协同搬运笨重物品,这类任务都涉及不断变化的接触点、抓握方式和运动轨迹,既难以通过传统编程实现,也很难通过人类远程操作提供高质量示范。
纽约大学坦顿工程学院和机器人与人工智能研究所的研究人员近期展示了一种不同路径:机器人可以依靠规划算法,而不是人类示范,来学习这些复杂行为。他们的研究发表在《IEEE Robotics and Automation Letters(IEEE机器人与自动化快报)》上,并获得了 IEEE RA-L 最佳论文奖。团队的核心发现是:用于训练的合成数据“质量”和“一致性”,比此前普遍认为的更为关键。
人类示范为何不够用
当前许多机器人学习系统依赖“模仿学习”:先由人类通过远程操作控制机器人完成任务,记录下这些示范,再让机器人学习模仿这些动作。然而,当任务需要多个接触点同时配合、手指精细协调时,远程操作往往难以提供稳定、精确且可重复的示范数据。
为绕开这一瓶颈,研究人员转而使用运动规划算法,在物理仿真环境中自动生成示范数据。这样,机器人可以从大量“虚拟经验”中学习,而不必完全依赖人类操作。但团队很快发现了一个问题:常用的快速扩展随机树(RRT)规划器虽然能找到可行解,却生成了风格差异极大的示范轨迹。
第一作者朱怀江指出:“这些规划器在找到解决方案方面非常强大,但如果每个解的动作模式都大相径庭,学习系统就很难判断到底应该模仿哪一种行为。”
随机性如何干扰机器人学习
研究团队发现,规划器中的随机性会产生他们称之为“高熵”数据:也就是通过完全不同的动作序列完成同一任务的示范集合。对规划器来说,这种多样性有利于探索各种可能路径,但对模仿学习而言,却会削弱学习效果。
为此,研究人员设计了替代规划方法,目标是生成更加一致的示范轨迹:
- 一种方法在规划过程中更强调朝目标方向的稳步推进,而不是大范围随机探索;
- 另一种方法则反复调用预先定义好的动作库,以减少动作模式的随机变化。
通过降低示范之间的差异度,团队希望让学习算法更容易从数据中提炼出稳定、可泛化的策略。

在高难度操作任务中的验证
研究人员在两个具有代表性的高难度操作任务上测试了这一思路:
- 双臂协作旋转圆柱:两只机器人手臂需要在不断更换抓握方式的同时,将一个大型圆柱体旋转 180 度;
- 灵巧手掌中操控立方体:一只多指灵巧机器人手在掌心中翻转、滚动立方体,使其最终姿态与目标方向一致。
实验结果显示:使用“更一致示范”训练出来的机器人,在这两项任务上的成功率都显著高于使用标准 RRT 数据训练的机器人,即便前者使用的数据集规模更小。在双臂协作任务中,改进后的系统仅依靠 100 个示范就达到了接近完美的表现。
更重要的是,团队将这些在仿真中学到的策略直接迁移到真实机器人硬件上,无需额外再训练。在物理实验中:
- 双臂机器人在圆柱旋转任务上的成功率约为 90%;
- 灵巧手在立方体操控任务中的成功率约为 62%。
这表明,一致性的合成示范不仅在仿真中有效,也能较好地跨越“仿真到现实”的鸿沟。
对未来机器人研究的启示
这项工作反映出机器人学研究中的一个重要趋势:经典运动规划与机器学习不再被视为彼此独立的路线,而是越来越多地被结合使用。在本研究中,规划算法扮演了“教师”的角色,为基于神经网络的机器人策略提供高质量训练样本。
研究结果也呼应了人工智能领域正在形成的一个共识:数据“多”并不等于“好”。相比数量庞大但嘈杂、风格高度多变的示范,精心构造且风格一致的示范往往更有利于机器学习到可靠的行为模式。
当然,挑战仍然存在,尤其是在涉及可变形物体、软体机器人手等难以精确建模的场景中,如何在仿真中生成足够真实且一致的示范仍是难题。但这项研究预示着一个方向:未来的机器人将越来越多地在虚拟环境中习得复杂的物理技能,而这些环境的设计重点,不仅是“能找到解”,更是“能产生机器真正学得会的解”。
