阿里巴巴发布「Qwen-Robot Suite」：让Qwen走出屏幕，走进物理世界的机器人

AI 2026-06-23 阿里巴巴, Qwen, 机器人, 大模型, 具身智能 1 次浏览

中国阿里巴巴旗下的 AI 研究团队 Qwen 于 2026 年 6 月 16 日发布了面向机器人开发的 AI 模型套件「Qwen-Robot Suite」。这一套件由三个基础模型组成，分别负责机器人移动、物体操作以及物理世界预测，旨在把 Qwen 多模态大模型的能力，从纯数字空间扩展到真实物理空间中的机器人系统。

■ Qwen-RobotNav、Qwen-RobotManip、Qwen-RobotWorld 的评测概览：在导航、物体操作和世界模型三大领域，对各模型性能进行了对比

三大核心模型：移动、操作与世界预测分工协作

Qwen-Robot Suite 由 Qwen-RobotManip、Qwen-RobotNav 和 Qwen-RobotWorld 三个模型构成，分别对应机器人操作、导航和世界建模三类关键能力。

Qwen-RobotManip 是面向机器人手臂等执行机构的 Vision-Language-Action（VLA）模型，主要解决「如何操作物体」的问题。它将视觉信息、自然语言指令与机器人自身状态关联起来，用于完成抓取、移动、整理物品等操作任务。

Qwen-RobotNav 负责机器人在环境中的导航与移动。它面向的场景包括：根据指令在空间中移动、寻找指定物体、跟踪目标，以及在类似自动驾驶的场景中，利用周围视觉信息进行路径规划和决策。

Qwen-RobotWorld 则是一个视频世界模型，用于预测物理世界的未来变化。模型基于当前观测，推断接下来可能出现的视觉变化，可用于合成数据生成、虚拟环境评估，以及为机器人控制提供规划信号，让机器人在「真正行动之前」先在模型中预演结果。

操作模型：基于约 3.81 万小时数据的预训练

在 Qwen-RobotManip 的技术报告中，研究团队将其定位为基于 Qwen-VL 的通用 VLA 模型。团队整合了开源机器人操作数据、人类第一视角视频以及合成数据，构建了约 3.81 万小时规模的预训练语料。

其中一个关键设计是「Human-to-Robot」合成管线：将人类第一视角的操作视频转换为适配 15 种不同机器人形态的操作数据。通过这一过程，人类手部动作被映射为不同机器人平台的轨迹表示，从而在多种机械结构之间对齐动作表达。

报告指出，与文本或图像相比，机器人操作数据的采集成本更高，而且不同机器人的形态和控制方式差异很大，简单堆砌数据难以获得良好的泛化能力。为此，Qwen-RobotManip 在状态与动作表示、末端执行器（End-Effector）运动描述以及执行历史的编码方式上进行了统一，使不同机器人之间更容易共享学习信号。

■ Qwen-RobotManip 的 OOD（分布外）泛化能力概览：在任务与场景泛化、指令跟随、跨机器人形态迁移等方面，与既有方法进行了对比

导航与世界模型：为机器人系统提供「眼睛」和「大脑」

根据 Qwen-RobotNav 的技术报告，该模型基于 Qwen3-VL 构建，专注于导航任务。训练过程中使用了约 1550 万条样本，覆盖指令跟随、物体搜索、目标追踪、自动驾驶等多种导航场景，并在统一的感知与规划框架下进行建模。

Qwen-RobotNav 并非一个独立完成所有任务的「全能体」，而是面向上层 AI 代理（Agent）的可调用组件。在长周期、复杂任务中，通常由上层规划器负责拆解目标，Nav 模型则根据当前环境和子目标，执行具体的移动与探索行为。

另一方面，Qwen-RobotWorld 是面向具身智能（Embodied AI）的、带语言条件的视频世界模型。它在包含 860 万段视频-文本对、超过 2 亿帧画面、20 多种具身形态以及 500 余类动作类别的数据上进行训练，目标是在给定当前观测和语言条件的前提下，预测物理一致的未来视觉轨迹。

世界模型有望成为机器人在真实环境中反复试错之前的「虚拟试验场」。在本次发布的套件中，移动、操作与世界预测被拆分为三个专门模型，同时又与 Qwen 系列基础模型相衔接，勾勒出一个可组合的机器人智能架构方向。

从聊天模型到「能在物理世界行动的 AI」

迄今为止，生成式 AI 的主要应用集中在文本、图像、视频、音频等数字内容的理解与生成上。Qwen-Robot Suite 则尝试把这些基础模型的能力延伸到机器人领域，让机器人能够在真实世界中移动、操作物体并预测环境变化。

阿里云方面表示，该套件已经与部分机器人行业企业客户展开试点测试。不过，本次发布的对象是用于机器人开发的 AI 模型，而非具体的机器人硬件产品。面向普通用户的开放范围以及商业化使用条件，还需等待后续官方进一步说明。

在机器人领域，采用多种基础模型按功能分工协作，而非依赖单一专用模型的趋势正在加速。Qwen-Robot Suite 的推出，表明阿里巴巴正尝试将 Qwen 从聊天与多模态内容生成，扩展到能够在物理世界中执行任务的具身智能方向。

发表评论

登录后才可评论。去登录