在一个庞大的自动化仓库中,数百台机器人穿梭于货架之间,负责采集和分发商品,以满足源源不断的客户订单需求。在这样繁忙的环境中,即使是小规模的交通堵塞或轻微碰撞,也可能引发大范围的作业延误。
为避免效率骤降,麻省理工学院(MIT)与科技公司Symbotic的研究人员开发出一种新方法,能够自动调度机器人队伍,保持流畅运行。该方法通过学习实时判断哪些机器人应优先通行,基于拥堵情况动态调整,优先安排即将受阻的机器人,从而提前重新规划路径,避免瓶颈形成。
这一混合系统结合了深度强化学习——一种解决复杂问题的强大人工智能技术,用以确定机器人优先级。随后,快速且可靠的规划算法将指令传达给机器人,使其能在不断变化的环境中迅速响应。
在模拟真实电商仓库布局的测试中,该方法较传统方案提升了约25%的吞吐量。更重要的是,该系统能快速适应不同机器人数量和仓库结构的新环境。
MIT信息与决策系统实验室(LIDS)研究生韩正(Han Zheng)表示:“制造和物流领域存在大量决策问题,企业通常依赖人类专家设计的算法。但我们证明,借助深度强化学习的力量,可以实现超越人类专家的表现。即使仓库吞吐量提升2%到3%,也能带来巨大影响,这种方法非常有前景。”
论文作者还包括LIDS博士后马一宁(Yining Ma)、Symbotic的Brandon Araki和陈景凯(Jingkai Chen),以及MIT土木与环境工程系及数据、系统与社会研究所的吴凯西教授(Cathy Wu)。该研究成果发表在《人工智能研究杂志》(Journal of Artificial Intelligence Research)。
智能重规划机器人路径
协调数百台机器人同时作业极具挑战,尤其仓库环境动态变化,机器人完成任务后会不断接收新指令,需快速调整路径进出作业区。
传统上,企业依赖专家设计的算法来规划机器人移动,以最大化包裹处理量。但一旦发生拥堵或碰撞,可能不得不关闭仓库数小时进行人工干预。
韩正指出:“我们无法准确预测未来,只能基于包裹流入和订单分布的可能性做出判断。规划系统必须具备适应性,实时应对仓库运营中的变化。”
研究团队设计了神经网络模型,输入仓库环境信息,输出机器人优先级决策。通过深度强化学习反复训练,模型在模拟真实仓库的环境中学习控制机器人,获得提升整体吞吐量且避免冲突的奖励。
随着训练深入,神经网络逐渐掌握高效协调多机器人作业的能力。

韩正解释:“系统通过与模拟环境交互获得反馈,持续优化决策智能。训练完成后,模型能适应不同布局的仓库。”
该模型不仅考虑每台机器人路径上的长期限制和障碍,还动态预测机器人间的交互,提前规划避免拥堵。
神经网络确定优先通行机器人后,系统利用成熟的规划算法指导机器人从一点移动到另一点,确保其在变化环境中快速响应。
吴凯西教授强调:“这种混合方法结合了机器学习与经典优化的优势。纯机器学习难以解决复杂优化问题,而专家设计方法耗时费力。合理结合两者,能极大简化机器学习任务。”
应对复杂环境挑战
训练完成后,研究人员在与训练环境不同的模拟仓库中测试系统。由于工业级模拟效率低下,团队自建环境以模拟真实仓库场景。
结果显示,该混合学习方法在机器人单位包裹处理量上比传统算法和随机搜索平均提升25%。同时,能生成有效路径规划,避免传统方法造成的拥堵。
韩正指出:“随着仓库机器人密度增加,问题复杂度呈指数增长,传统方法很快失效。我们的方案在此类环境中表现更优。”
虽然距离实际部署尚有距离,但该研究展示了机器学习引导的仓库自动化调度的可行性和优势。
未来,团队计划将任务分配纳入问题建模,因为机器人任务分配也会影响拥堵情况,并希望将系统扩展到拥有数千台机器人的大型仓库。
本研究由Symbotic资助。