麻省理工科学家打造全球最大奥林匹克数学竞赛题库，向公众开放

AI 2026-04-25 数学奥林匹克, 人工智能, 数据集, 数学竞赛, MIT 2 次浏览

每年，参加国际数学奥林匹克（IMO）的各国代表团都会携带一本包含本国最优秀、最具原创性的竞赛题目册。这些题册会在代表团之间交换，但随后便悄然消失。此前，没人系统地收集、整理并公开这些宝贵的资源，无论是供人工智能研究者测试数学推理能力，还是供全球学生自学备赛使用。

麻省理工学院计算机科学与人工智能实验室（CSAIL）、沙特阿卜杜拉国王科技大学（KAUST）以及HUMAIN公司联合研发的MathNet项目，正是填补了这一空白。

MathNet是迄今为止规模最大、质量最高的基于证明的数学竞赛题库，收录了来自47个国家、涵盖17种语言、143场竞赛的3万多道专家编写的题目及详尽解答，规模是同类数据集的五倍。该项目成果将于本月晚些时候在巴西举办的国际学习表征会议（ICLR）上发布。

MathNet的独特之处不仅在于其庞大的规模，更在于其广泛的覆盖面。此前的奥林匹克级别题库几乎仅限于美国和中国的竞赛题目，而MathNet涵盖了六大洲数十个国家，包含文本和图像题目，跨越了四十年的竞赛历史，力求展现全球数学社区多样的视角和解题传统，而非仅聚焦最显著的几个国家。

“每个国家都会带来一本最具创新性和创造力的题册，”MIT博士生、论文第一作者Shaden Alshammari表示，“这些题册虽然相互分享，但从未有人系统地收集、清理并上传到线上。”

构建MathNet的过程极为艰巨，团队追踪了1595本PDF题册，累计超过2.5万页，涵盖数字文档和数十年前的扫描件，涉及十几种语言。其中一大部分资料来自IMO社区资深成员、联合作者Navid Safaei，他自2006年起手工收集并扫描这些题册，他的个人档案成为数据集的核心支撑。

数据来源的权威性与规模同样重要。多数现有数学数据集多取自社区论坛如Art of Problem Solving（AoPS），而MathNet则完全基于官方国家竞赛题册。这些题册中的解答由专家撰写并经过同行评审，往往篇幅较长，详细阐述多种解题思路。相比社区题解的简短非正式回答，这种深度为AI模型学习数学推理提供了更丰富的信号，也使数据集对学生备赛更具实用价值。如今，任何准备IMO或国家竞赛的学生都能访问这一集中、可检索的高质量题库和详尽解答，涵盖全球多样的数学传统。

“我记得很多学生都是独自努力备赛，国内没有人指导他们参加这类竞赛，”曾作为IMO选手的Alshammari说，“我们希望MathNet能为他们提供一个集中且高质量的学习资源。”

团队成员与IMO社区联系紧密。联合作者Sultan Albarakati现任IMO理事会成员，研究团队正努力将数据集直接分享给IMO基金会。为验证数据集的准确性，他们组织了30多位来自亚美尼亚、俄罗斯、乌克兰、越南、波兰等国的评审人员，协作核对了数千份解答。

瑞士IMO副队长Tanish Patil评价道：“MathNet数据库对学生和竞赛组织者来说都是极佳资源，既能寻找新题目，也能查找难题解法。虽然AoPS等平台也有奥林匹克题库，但它们缺乏统一格式、验证解答和重要的题目元数据。期待看到该数据集如何助力提升推理模型表现，以及未来是否能有效判定一道新题是否真正原创。”

MathNet同时是AI性能的严苛基准测试。尽管前沿模型取得了显著进步，有报道称部分模型已达到IMO金牌水平，并能解决大多数人类难题，但MathNet揭示了进步的复杂性。即使是表现最优的GPT-5模型，在6400道题的主测试中平均正确率约为69.3%，仍有近三分之一的奥林匹克难题未能解决。涉及图形的题目更是普遍降低了模型表现，显示视觉推理仍是AI的薄弱环节。

此外，多个开源模型在蒙古语题目上得分为零，凸显当前AI系统在非主流语言上的不足。

“GPT模型在英语及其他语言表现均衡，但许多开源模型在蒙古语等小语种上完全失效，”Alshammari指出。

MathNet的多样性还旨在解决AI数学学习中的文化偏差问题。训练数据若偏重英语和中文题目，模型只能吸收有限的数学文化。罗马尼亚的组合数学题或巴西的数论题可能从完全不同的角度探讨相同概念。研究者认为，接触多元化题目能提升人类和AI的数学思维能力。

除了题目解答，MathNet还引入了检索基准，测试模型是否能识别两道题目是否共享相同的数学结构。这对AI发展和数学社区都至关重要。历史上，IMO考试中曾出现过近似重复题目，因为跨语言、符号和格式识别数学等价性极具挑战。研究团队测试了八种先进的嵌入模型，发现即使最强模型首次尝试正确匹配率也仅约5%，且常将结构无关题目误判为相似。

数据集还包含基于检索增强生成的测试，考察在解新题前先给模型提供结构相关题目是否能提升表现。结果显示，相关题目检索能提升最多12个百分点，而无关题目检索则在约22%的情况下降低了表现。

论文作者包括Alshammari、Safaei、HUMAIN AI工程师Abrar Zainal、KAUST学院主任Sultan Albarakati，以及MIT CSAIL的硕士生Kevin Wen、微软高级工程经理Mark Hamilton、教授William Freeman和Antonio Torralba。该项目部分由施瓦茨曼计算学院奖学金和美国国家科学基金会资助。

MathNet现已公开，访问地址：https://mathnet.csail.mit.edu。

发表评论

登录后才可评论。去登录