Google DeepMind 发布机器人视觉语言模型「Gemini Robotics-ER 1.6」,与 Boston Dynamics 协作强化仪表读数等能力
Google DeepMind 推出新一代机器人向视觉语言模型 Gemini Robotics-ER 1.6,在空间推理、多视角理解和任务成功判定等方面大幅升级,并通过 Gemini API 与 Google AI Studio 面向开发者开放预览。
微软发布Rho-alpha机器人模型:将自然语言指令转化为动作,并引入触觉与力反馈
机器人在重复性工业流程中应用已久,但在执行日常人类指令时,往往受限于指令的模糊性与环境的不确定性。微软推出的Rho-alpha(常写作ρα)试图缩小这一差距,通过把自然语言转化为可执行的协调动作,使机器人在变化场景中不必依赖脆弱脚本也能完成任务。 基于Phi家族构建,面向“物理人工智能” 微软将Rho-alpha定位为其推进“物理人工智能”的组成部分,目标是让机器人能够在人类周围更安全、更灵活地操