MIT研究人员开发ChartNet,提升AI对图表的理解能力

richlovec 1500_400 (1)
 

为了加速并优化在快速变化的全球市场中的决策过程,企业正逐步采用生成式人工智能模型来帮助总结和解读市场报告及财务报表中大量的图表信息。

然而,即使是最新的视觉语言模型(VLM)在处理这类任务时仍存在困难,因为这要求模型同时整合视觉、数值和语言的理解能力。即便企业投资了最先进的模型,也可能得到不准确或不完整的信息。

为了解决这一性能瓶颈,MIT及MIT-IBM计算研究实验室的研究人员开发了一套多维度资源,专门用于训练视觉语言模型有效解读图表。

他们采用创新的数据生成方法,构建了包含超过一百万张多样化图表的先进数据集——ChartNet。该数据集不仅包含图表图像,还编码了图表的视觉、语言和数值信息,使模型能够更全面地推理图表中的数据。

研究团队利用ChartNet训练了一系列开源视觉语言模型,许多较小的模型在数据提取和图表摘要等任务上,表现远超规模大得多的商业模型。

ChartNet的开放性使得预算有限的小型企业也能更容易地利用AI技术,提升业务趋势分析和科学图形解读的能力。

MIT电气工程与计算机科学研究生、ChartNet论文的第一作者Jovana Kondic表示:“我们打造ChartNet,旨在为图表理解提供一站式解决方案,涵盖AI模型及其训练者所需的各类功能。我们希望这项工作能激励研究人员用更小巧的模型实现最先进的性能,避免对无限计算资源的依赖。”

论文合著者还包括MIT、MIT-IBM计算研究实验室及IBM研究院的多位专家,如IBM研究员Pengyuan Li、资深科学家Dhiraj Joshi、软件工程师Isaac Sanchez,以及MIT Schwarzman计算学院战略产业合作主任Aude Oliva和MIT-IBM计算研究实验室负责人Rogerio Feris。该研究成果将在IEEE计算机视觉与模式识别会议上发布。

数据集瓶颈

尽管生成式AI在自然语言处理和自然图像推理方面取得了显著进展,但对图表中复杂多模态数据的理解研究相对较少。Kondic指出,图表理解对各行各业的企业至关重要。

IBM高级科学家Joshi补充:“金融行业高度依赖图表。视觉语言模型若能准确提取图表中的趋势描述,将极大促进后续工作流程。”

高质量训练数据的缺乏是限制视觉语言模型准确解读图表的主要瓶颈。现有数据集多为从网络抓取的有限图表,缺乏规模和辅助信息,难以支持模型深入理解。

“与人脑不同,视觉语言模型需要在训练中看到成千上万的示例,才能可靠识别线形图等图表类型。”Kondic说。

合成数据生成

为克服上述不足,研究团队采用合成数据生成技术,通过算法模拟真实数据的统计特性。

ChartNet数据集包含超过一百万张高质量图表图像,配套有生成图表的代码、文本描述及数值表格。此外,每个数据点还包含问答对,指导模型正确回答关于图表的问题。

“这些多模态数据帮助模型连接并对齐图表图像中编码的不同信息。”Kondic解释。

构建ChartNet时,研究人员设计了两步合成数据生成流程。首先,自动系统将现有图表图像转换为代码;随后,系统对代码进行迭代增强,改变图表类型、数据值、主题和颜色等元素。

“我们可以从单个图表出发,生成数百个变体,从而构建出超过一百万张多样化图像的数据集。”Kondic说。

团队还引入自动质量检测,确保生成代码可执行且图表渲染准确清晰。

此外,ChartNet包含部分由专家人工标注的图表数据,提供更多图表类型和有效性保证。Joshi指出,实践者可利用这些标注数据对已有模型进行微调,进一步提升特定应用的表现。

实验验证

研究人员用ChartNet训练了IBM的Granite Vision系列模型及其他多种开源模型,评估其在图表重建、数据提取、摘要和问答等任务上的表现。结果显示,所有模型的准确率均有显著提升。

尤其是小型开源模型,表现持续优于体量更大的商业模型。

“以往训练数据集多聚焦于回答简单图表问题。ChartNet则支持图表理解的各个方面,推动模型实现更全面的能力。”Kondic总结。

未来,团队计划继续扩展ChartNet,加入更复杂的数据类型,并欢迎研究社区的反馈。

本研究部分由MIT-IBM计算研究实验室资助。


分享:


发表评论

登录后才可评论。 去登录