ChatGPT与Gemini在东大理三“超越状元”　LifePrompt实测：数学科目频频拿满分

AI 2026-04-29 生成式AI, 大学入試, ChatGPT, Gemini, 教育与考试 36 次浏览

AI初创公司 LifePrompt 于 2026 年 4 月 27 日公布了一项最新实测结果：他们让 OpenAI 与 Google 的多种 AI 模型，挑战东京大学与京都大学的入学考试题目，并由河合塾讲师按人类考生同一标准进行评分。结果显示，在被视为日本最难关之一的东京大学理科三类中，ChatGPT 与 Gemini 的得分都超过了合格者最高分，尤其在数学科目上，多次取得满分。

画像の出典：Geminiにより ledge.ai が生成

## 东大理科三类：AI成绩超过历年最高分根据 LifePrompt 的检验结果，在 2026 年度东京大学二次考试中，多款 AI 模型的总分都远高于合格线。在最难的理科三类（医学部进路）中，2026 年度合格者最高分为 453.60 分（满分 550 分）。在同一试题上： - ChatGPT 5.2 Thinking 得分 503.59 分 - Gemini 3 Pro Preview 得分 496.54 分两者都比“首席”相当的最高分高出约 50 分，显示出在知识与推理层面已明显超越人类顶尖考生的水准。 Claude 4.5 Opus 虽未达到合格者最高分，但在所有科类中都比合格最低分高出 100 分以上，同样展现出稳定的高水平表现。

画像の出典：LifePrompt公式noteより{target=“_blank”}

## 京大医学部：同样超越历年最高分在京都大学医学部医学科的检验中，也出现了类似趋势。由于 2026 年度的合格者最高分尚未公布，LifePrompt 以 2025 年度的最高分 1105.87 分作为比较基准。结果显示： - ChatGPT 得分 1176.25 分 - Gemini 得分 1122.25 分两者都超过了 2025 年度的合格者最高分。Claude 虽未给出具体分数，但同样超过了合格最低分，说明在京都大学这一顶尖难度的记述式考试中，AI 也能取得足以“合格”的成绩。

画像の出典：LifePrompt公式noteより{target=“_blank”}

## 数学成绩尤为突出：满分频出，一年内大幅进化本次检验中最引人注目的，是数学科目的飞跃表现。 - 东京大学理科数学（满分 120 分） - 京都大学理科数学（满分 200 分）在这两门考试中，ChatGPT 与 Gemini 均拿到满分。此外，在京都大学化学科目中，ChatGPT 也取得了满分成绩。对比去年的结果，可以更清楚地看到进步幅度：在上一年度的检验中，ChatGPT o1 在东大理科数学仅得 38 分，而今年最新模型已经达到满分，LifePrompt 评价为“在短短一年内性能有了飞跃式提升”。

画像の出典：LifePrompt公式noteより{target=“_blank”}

## 采用记述式试题，河合塾讲师人工评分此次检验并非选择题形式，而是针对东京大学与京都大学的二次考试——以记述式、论述式为主的试题进行。具体流程为： - 将入学考试题目的 PDF 转换为图像 - 通过 API 将图像输入各 AI 模型 - 不启用联网浏览功能，仅依靠模型既有知识与推理能力作答生成的记述式答案由河合塾讲师按照人类考生同一标准进行评分，不仅看最终结论是否正确，也评估解题过程、论述结构与表达是否恰当，从而更全面地检验 AI 在“考试场景”中的真实实力。 ## 各科目表现差异：模型特性一目了然按科目分析后，LifePrompt 发现不同模型之间的“个性”差异十分明显。 - **英语**：所有模型都取得了稳定的高分。在需要识别图像中下划线部分等题型上，ChatGPT 的表现尤其突出。 - **数学**：ChatGPT 更倾向于基于结构理解来选择解法，推理路径较为“教科书式”；Gemini 则常通过计算量更大的方法抵达正确答案。 - **物理**：在东京大学物理试题中，Claude 取得满分。 - **历史与论述科目**：在日本史、世界史等需要长篇论述的科目上，Claude 的评价较高。但在世界史中，ChatGPT 仅得 15 分，显示出不同模型在知识覆盖与论述风格上的明显强弱差异。

东大各科目得分

画像の出典：LifePrompt公式noteより{target=“_blank”}

## 图像理解、论述表达与输出控制仍是短板尽管在分数上“碾压”了人类顶尖考生，但本次检验也暴露出 AI 在多个方面的弱点。 - **图像理解**：在读取图表、化学结构式、地图等视觉信息时，部分模型出现误读或误判。 - **输出控制**：在有字数限制的题目中，AI 有时无法严格遵守要求，出现超字数或未充分展开的情况。 - **日文论述自然度**：在日语长文论述中，偶尔会出现不自然的表达或违和的语气，被评分者指出为减分点。在国语（语文）科目中，涉及比喻、隐含语气、复杂语境理解的题目对所有模型都构成了挑战。这也凸显出一个关键问题：AI 在“知识储备”与“将知识以恰当方式表达出来”的能力之间，仍存在明显落差。 ## “超越首席”并不意味着万能综合来看，LifePrompt 的这次检验表明：在知识、计算与形式化推理等方面，最新一代大模型已经达到甚至超越人类顶尖考生的水平，足以在东大理三、京大医学部这类最难入学考试中拿到“状元级”分数。但与此同时，模型在输出控制、语境与比喻理解、图像信息处理等方面仍有明显短板，尚无法在所有任务上完全替代人类。LifePrompt 指出，要想最大限度发挥 AI 的能力，关键在于人类要充分理解这些长处与弱点，在设计任务与使用场景时进行合理分工与互补，而不是简单地将 AI 视为“万能解题机器”。

发表评论

登录后才可评论。去登录