Spirit AI开源发布具身VLA模型Spirit v1.5,RoboChallenge榜单整体排名第一

richlovec 1500_400 (1)
 

具身AI初创公司Spirit AI今日宣布,其最新视觉-语言-动作(VLA)模型Spirit v1.5在RoboChallenge基准测试中整体排名第一。公司同时表示,为提升行业透明度并促进协作研发,已开源基础模型、模型权重及核心评估代码,供全球研究者独立复现与验证相关结果。

RoboChallenge排行榜页面为:https://robochallenge.cn/home 。Spirit AI披露的开源资源包括:GitHub代码仓库(https://github.com/Spirit-AI-Team/spirit-v1.5 )、Hugging Face模型页面(https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5 )以及官方博客说明(https://www.spirit-ai.com/en/blog/spirit-v1-5 )。

据介绍,Spirit v1.5在RoboChallenge Table30任务集上完成评估。RoboChallenge由包括Dexmal与Hugging Face在内的多个组织联合发起,定位为标准化的真实机器人评测基准,用于衡量具身AI系统在真实执行条件下的表现。

Spirit AI称,该基准覆盖多类日常技能任务,包括物体插入、食物准备以及多步骤工具使用,并在不同机器人配置下进行测试,涉及单臂、双臂系统及不同感知设置。基准设计重点考察模型在三维定位、遮挡处理、时间推理、长时执行以及跨机器人泛化能力等方面的表现。

在模型架构方面,Spirit AI表示,Spirit v1.5采用统一的VLA端到端框架,将视觉感知、语言理解与动作生成整合为单一决策流程,以区别于将感知、规划与控制拆分的模块化方案。

在训练数据方面,Spirit AI强调其数据采集范式以“开放式、目标驱动”的多样化数据为主,而非高度策划的脚本化示范。公司称,操作员在采集过程中围绕高层目标推进任务,数据因此能够自然包含任务转换、恢复行为以及不同物体与环境间的交互过程。

Spirit AI进一步表示,在该采集方式下,单次数据记录往往包含抓取、插入、旋转、打开容器以及双手协同等多种原子技能的连续组合,使模型学习到技能之间的连接与转换,从而形成更具迁移性与泛化性的策略。

关于泛化与迁移效率,Spirit AI提到,近期消融研究结果显示,预训练数据的多样性与迁移效率存在显著相关性:在相同数据预算下,预训练阶段接触多样化、非脚本化内容的模型,在微调阶段掌握新任务所需时间少于基于脚本示范训练的模型。

Spirit AI表示,此次开源发布覆盖用于RoboChallenge评测的模型权重与源代码,研究社区可据此独立验证基准结果,并在此基础上开展扩展开发与研究工作。


分享:


发表评论

登录后才可评论。 去登录