在一座大型自动化仓库中,数百台机器人在狭长过道间高速穿梭,不断拣选和运送货物,以满足持续涌入的客户订单。在这样的高负载环境里,哪怕是轻微的“交通堵塞”或小碰撞,都可能迅速放大成整体效率的大幅下降。
为了避免这种连锁反应,麻省理工学院(MIT)与科技公司 Symbotic 的研究人员提出了一种新方法,可以自动协调机器人通行顺序和路径,让整个系统保持顺畅运行。
让“快要被堵住”的机器人先走
这套方法的核心,是让系统在每一时刻自动判断:当前应该优先让哪台机器人通行。它会根据拥堵形成的趋势,动态识别“即将被堵住”的机器人,并优先为其安排通行权和路径改道。
通过提前重新规划路径,系统在瓶颈真正形成之前就进行“预防式疏导”,从而减少局部拥堵向全局扩散的风险。
深度强化学习与快速规划算法的结合
研究团队构建了一个混合系统:
- 首先使用深度强化学习(Deep Reinforcement Learning)来学习“优先谁先走”的策略。这是一种通过试错来解决复杂决策问题的人工智能方法。
- 然后,再由一个快速且稳定的规划算法,将这些优先级决策转化为具体的机器人移动指令,使机器人能在不断变化的仓库环境中迅速响应。
在训练阶段,研究人员搭建了一个模拟真实电商仓库布局的环境,让神经网络在其中“练习”如何调度机器人。每当模型做出既能提升整体吞吐量、又能避免冲突的决策时,就会获得奖励。随着训练推进,神经网络逐渐学会如何高效协调大量机器人。
实验结果显示,在模拟电商仓库中,这种混合方法相比其他现有方法,整体吞吐量平均提升约 25%。更重要的是,训练好的系统可以快速适应不同数量的机器人和不同结构的仓库布局。
“制造和物流中有大量复杂的决策问题,企业通常依赖人类专家设计算法来解决。我们的工作表明,借助深度强化学习,可以在这些问题上取得超越人类专家算法的表现。在大型仓库里,即便是 2% 或 3% 的吞吐量提升,都可能带来巨大的经济效益,”论文第一作者、MIT 信息与决策系统实验室(LIDS)研究生韩正表示。
论文作者还包括 LIDS 博士后马一宁,Symbotic 的 Brandon Araki 和陈景凯,以及资深作者——MIT 土木与环境工程系(CEE)与数据、系统与社会研究所(IDSS)1954 级职业发展副教授、LIDS 成员吴凯西。相关研究发表在《人工智能研究杂志》(Journal of Artificial Intelligence Research)上。
动态环境中的路径重规划
在电商仓库中同时协调数百台机器人极具挑战性。仓库是高度动态的环境:机器人完成当前任务后会立刻接收新任务,进出库的货物和订单分布也在不断变化,路径规划系统必须持续适应这些变化。
目前,企业通常依靠人类专家编写的规则和算法来决定机器人何时、何地移动,以尽可能提高包裹处理量。但一旦出现严重拥堵或碰撞,企业可能不得不暂停整个仓库数小时,由人工介入处理。
“在这样的环境里,我们无法精确预测未来,只能掌握可能出现的情况,比如未来一段时间内包裹到达和订单的分布。规划系统必须在运营过程中不断调整,”韩正解释。

MIT 团队通过机器学习实现了这种自适应能力。他们首先设计了一个神经网络模型,用来观察仓库状态并决定机器人优先级。通过深度强化学习,这个模型在模拟环境中反复试验如何控制机器人,以提升整体吞吐量并避免冲突。
随着训练的推进,神经网络逐渐掌握了协调大量机器人的有效策略。
“通过与受真实仓库布局启发的模拟环境交互,我们的系统不断获得反馈,从而提升决策质量。训练完成后,这个神经网络还能迁移到不同布局的仓库中使用,”韩正说。
模型的设计重点在于:
- 捕捉每台机器人路径上的长期约束和障碍;
- 同时考虑机器人在移动过程中的相互影响和动态交互;
- 通过预测当前和未来可能发生的交互,在拥堵真正形成前进行规避。
当神经网络给出“哪些机器人应优先通行”的决策后,系统会调用一个成熟的规划算法,为每台机器人生成从一点到另一点的具体路径。这个高效算法使机器人能够在不断变化的环境中快速做出反应。
吴凯西指出,这种混合式设计至关重要:“我们的工作建立在团队此前关于如何让机器学习与经典优化方法优势互补的研究基础上。纯机器学习方法目前仍难以直接解决复杂的优化问题,而完全依赖人类专家设计高效方法又非常耗时耗力。通过合理结合两者,并在关键环节使用专家设计的方法,可以大幅简化机器学习需要解决的部分。”
应对复杂度爆炸
在完成训练后,研究人员将该系统部署到与训练环境不同的模拟仓库中进行测试。由于现有工业仿真工具在这类复杂问题上效率不足,团队专门设计了自己的模拟环境,以更真实地还原仓库运行情况。
结果显示,在每台机器人完成包裹交付的数量上,这种混合学习方法平均比传统算法和随机搜索方法实现了约 25% 的吞吐量提升。同时,它还能生成有效的路径规划方案,避免传统方法容易引发的严重拥堵。
“尤其是在仓库中机器人密度不断提高时,问题复杂度呈指数级增长,传统方法很快就会失效。在这种高密度环境下,我们的方法表现更为突出,”韩正表示。
尽管距离在真实仓库中的大规模部署仍有一段距离,这些实验结果已经展示了由机器学习驱动的调度方法在仓库自动化领域的可行性和潜在优势。
展望未来,研究团队计划将“任务分配”也纳入统一建模框架,因为哪台机器人执行哪项任务本身就会影响拥堵情况。他们还希望将系统扩展到拥有数千台机器人的更大规模仓库中进行验证。
本文经 MIT 新闻网站(web.mit.edu/newsoffice/)授权转载,该网站专注报道 MIT 的研究、创新与教学相关资讯。