无人机(UAV),通常被称为无人机,已经在电影拍摄、航拍、工业巡检、精准农业以及紧急救援等领域得到广泛应用,尤其是在需要进入障碍密集或人类难以抵达区域的任务中表现突出。然而,尽管现有无人机可以在环境中高速飞行并绕开较大的障碍物,它们在杂乱环境中灵活穿行的能力仍然有限,往往难以完成通过极窄缝隙或深入隐蔽空间等高难度机动动作。
浙江大学的研究团队近期提出了一套全新的控制策略,显著提升了无人机执行复杂机动并穿越极窄开口的能力。相关成果发表在《Science Robotics》期刊上。该方法基于强化学习(RL),通过机载传感器采集的数据直接生成电机控制指令,实现从感知到控制的端到端闭环。
研究人员在论文中指出,一个关键问题是:在三维特殊欧几里得群约束下,四旋翼无人机如何完成激进的窄缝穿越机动。这类机动要求无人机充分利用瞬时大倾角姿态以及机体结构的不对称性,才能在极小余量下通过缝隙。为此,团队设计了新的传感—运动策略,将机载视觉信息和本体感受信号直接映射到低层控制指令,使无人机能够自主规划并执行这些高难度动作。
基于强化学习的端到端控制策略
Wu、Xu 及其同事提出的传感—运动策略采用强化学习进行训练。强化学习通过“试错—奖励”的方式,让智能体在不断尝试中学习如何完成任务:当预测正确或成功完成目标时获得奖励,从而逐步优化策略。
在该研究中,策略的输入包括机载摄像头采集的图像,以及无人机自身的状态测量数据,如姿态、角速度和加速度等;输出则是直接作用于电机的控制指令,实现从感知到控制的端到端闭环。
作者介绍,他们在仿真环境中使用端到端策略蒸馏的强化学习方法对控制策略进行训练。为缓解无模型强化学习在受限解空间中探索效率低的问题,团队首先利用基于模型的规划器生成参考轨迹,用这些轨迹对策略进行初始化,再在此基础上进行强化学习训练,从而加速收敛并提高策略质量。

在完成训练后,研究人员分别在仿真和真实环境中对策略进行了系统评估。结果表明,该策略可以引导无人机成功穿越矩形缝隙以及以不同角度倾斜的多种形状开口。更具挑战性的是,无人机还能够通过移动中的缝隙,以及由多个紧密排列、间距很小的开口构成的连续轨道。
研究团队指出,精细的“仿真到现实”设计,使得这一策略在真实环境中同样具备高重复性和低余量的控制能力。例如,四旋翼无人机可以在缝隙仅有 5 厘米(约 2 英寸)、倾斜角度高达 90° 的矩形开口中完成穿越,而无需事先获知缝隙的具体位置或朝向。即便策略在训练阶段并未专门针对动态缝隙进行学习,它仍然能够对移动缝隙做出反应式调整,引导无人机完成穿越。
该方法已经在由多个狭窄且间距极小的开口组成的复杂轨道上得到验证,表现出稳定的通过能力。
面向复杂真实场景的应用前景
Wu、Xu 及其同事的工作为无人机在复杂、动态和高度杂乱环境中的自主飞行提供了新的思路,有望推动更多研究者探索类似的传感—运动控制策略。未来,这一控制框架还可以进一步优化,并扩展到目前商用无人机难以胜任的其他任务场景。
从应用角度看,这类策略有望部署在市售无人机平台上,显著提升其机动性和在真实任务中的执行能力。例如,无人机可以在地震或建筑坍塌后的废墟中穿过狭小缝隙,协助搜寻幸存者;在工业场景中进入隐蔽空间或管道内部进行精细检查;或在部分坍塌的矿井、隧道和通风井等狭窄空间中执行探索和安全评估任务。
© 2026 Science X Network
