ChartNet训练AI读懂图表,小型开源模型性能反超商业大模型
MIT与MIT-IBM计算研究实验室推出ChartNet图表数据集,通过合成数据系统性训练视觉-语言模型,让小型开源模型在图表理解任务上超越体量更大的商业模型。
MIT研究人员开发ChartNet,提升AI对图表的理解能力
MIT与MIT-IBM计算研究实验室联合开发了ChartNet数据集,显著提升视觉语言模型对图表的解析和理解能力,助力商业趋势分析和科学图形解读。
破解“打地鼠困境”:一种更智能的AI视觉模型去偏方法
一种名为WRING的新型去偏技术,避免了现有去偏方法中可能产生或放大偏见的问题。
Google DeepMind 发布机器人视觉语言模型「Gemini Robotics-ER 1.6」,与 Boston Dynamics 协作强化仪表读数等能力
Google DeepMind 推出新一代机器人向视觉语言模型 Gemini Robotics-ER 1.6,在空间推理、多视角理解和任务成功判定等方面大幅升级,并通过 Gemini API 与 Google AI Studio 面向开发者开放预览。
微软发布Rho-alpha机器人模型:将自然语言指令转化为动作,并引入触觉与力反馈
机器人在重复性工业流程中应用已久,但在执行日常人类指令时,往往受限于指令的模糊性与环境的不确定性。微软推出的Rho-alpha(常写作ρα)试图缩小这一差距,通过把自然语言转化为可执行的协调动作,使机器人在变化场景中不必依赖脆弱脚本也能完成任务。 基于Phi家族构建,面向“物理人工智能” 微软将Rho-alpha定位为其推进“物理人工智能”的组成部分,目标是让机器人能够在人类周围更安全、更灵活地操
