视觉语言模型

ChartNet训练AI读懂图表，小型开源模型性能反超商业大模型

科学 2026-06-05

MIT与MIT-IBM计算研究实验室推出ChartNet图表数据集，通过合成数据系统性训练视觉-语言模型，让小型开源模型在图表理解任务上超越体量更大的商业模型。

MIT研究人员开发ChartNet，提升AI对图表的理解能力

AI 2026-06-03

MIT与MIT-IBM计算研究实验室联合开发了ChartNet数据集，显著提升视觉语言模型对图表的解析和理解能力，助力商业趋势分析和科学图形解读。

破解“打地鼠困境”：一种更智能的AI视觉模型去偏方法

AI 2026-05-03

一种名为WRING的新型去偏技术，避免了现有去偏方法中可能产生或放大偏见的问题。

Google DeepMind 发布机器人视觉语言模型「Gemini Robotics-ER 1.6」，与 Boston Dynamics 协作强化仪表读数等能力

AI 2026-04-17

Google DeepMind 推出新一代机器人向视觉语言模型 Gemini Robotics-ER 1.6，在空间推理、多视角理解和任务成功判定等方面大幅升级，并通过 Gemini API 与 Google AI Studio 面向开发者开放预览。

微软发布Rho-alpha机器人模型：将自然语言指令转化为动作，并引入触觉与力反馈

AI 2026-01-27 向量笔记

机器人在重复性工业流程中应用已久，但在执行日常人类指令时，往往受限于指令的模糊性与环境的不确定性。微软推出的Rho-alpha（常写作ρα）试图缩小这一差距，通过把自然语言转化为可执行的协调动作，使机器人在变化场景中不必依赖脆弱脚本也能完成任务。基于Phi家族构建，面向“物理人工智能” 微软将Rho-alpha定位为其推进“物理人工智能”的组成部分，目标是让机器人能够在人类周围更安全、更灵活地操