AI初创公司 LifePrompt 于 2026 年 4 月 27 日公布了一项最新实测结果:他们让 OpenAI 与 Google 的多种 AI 模型,挑战东京大学与京都大学的入学考试题目,并由河合塾讲师按人类考生同一标准进行评分。结果显示,在被视为日本最难关之一的东京大学理科三类中,ChatGPT 与 Gemini 的得分都超过了合格者最高分,尤其在数学科目上,多次取得满分。
画像の出典:Geminiにより ledge.ai が生成
## 东大理科三类:AI成绩超过历年最高分 根据 LifePrompt 的检验结果,在 2026 年度东京大学二次考试中,多款 AI 模型的总分都远高于合格线。 在最难的理科三类(医学部进路)中,2026 年度合格者最高分为 453.60 分(满分 550 分)。在同一试题上: - ChatGPT 5.2 Thinking 得分 503.59 分 - Gemini 3 Pro Preview 得分 496.54 分 两者都比“首席”相当的最高分高出约 50 分,显示出在知识与推理层面已明显超越人类顶尖考生的水准。 Claude 4.5 Opus 虽未达到合格者最高分,但在所有科类中都比合格最低分高出 100 分以上,同样展现出稳定的高水平表现。
画像の出典:LifePrompt公式noteより{target=“_blank”}
## 京大医学部:同样超越历年最高分 在京都大学医学部医学科的检验中,也出现了类似趋势。 由于 2026 年度的合格者最高分尚未公布,LifePrompt 以 2025 年度的最高分 1105.87 分作为比较基准。结果显示: - ChatGPT 得分 1176.25 分 - Gemini 得分 1122.25 分 两者都超过了 2025 年度的合格者最高分。Claude 虽未给出具体分数,但同样超过了合格最低分,说明在京都大学这一顶尖难度的记述式考试中,AI 也能取得足以“合格”的成绩。
画像の出典:LifePrompt公式noteより{target=“_blank”}


画像の出典:LifePrompt公式noteより{target=“_blank”}
## 采用记述式试题,河合塾讲师人工评分 此次检验并非选择题形式,而是针对东京大学与京都大学的二次考试——以记述式、论述式为主的试题进行。 具体流程为: - 将入学考试题目的 PDF 转换为图像 - 通过 API 将图像输入各 AI 模型 - 不启用联网浏览功能,仅依靠模型既有知识与推理能力作答 生成的记述式答案由河合塾讲师按照人类考生同一标准进行评分,不仅看最终结论是否正确,也评估解题过程、论述结构与表达是否恰当,从而更全面地检验 AI 在“考试场景”中的真实实力。 ## 各科目表现差异:模型特性一目了然 按科目分析后,LifePrompt 发现不同模型之间的“个性”差异十分明显。 - **英语**:所有模型都取得了稳定的高分。在需要识别图像中下划线部分等题型上,ChatGPT 的表现尤其突出。 - **数学**:ChatGPT 更倾向于基于结构理解来选择解法,推理路径较为“教科书式”;Gemini 则常通过计算量更大的方法抵达正确答案。 - **物理**:在东京大学物理试题中,Claude 取得满分。 - **历史与论述科目**:在日本史、世界史等需要长篇论述的科目上,Claude 的评价较高。但在世界史中,ChatGPT 仅得 15 分,显示出不同模型在知识覆盖与论述风格上的明显强弱差异。东大 各科目得分

画像の出典:LifePrompt公式noteより{target=“_blank”}
## 图像理解、论述表达与输出控制仍是短板 尽管在分数上“碾压”了人类顶尖考生,但本次检验也暴露出 AI 在多个方面的弱点。 - **图像理解**:在读取图表、化学结构式、地图等视觉信息时,部分模型出现误读或误判。 - **输出控制**:在有字数限制的题目中,AI 有时无法严格遵守要求,出现超字数或未充分展开的情况。 - **日文论述自然度**:在日语长文论述中,偶尔会出现不自然的表达或违和的语气,被评分者指出为减分点。 在国语(语文)科目中,涉及比喻、隐含语气、复杂语境理解的题目对所有模型都构成了挑战。这也凸显出一个关键问题:AI 在“知识储备”与“将知识以恰当方式表达出来”的能力之间,仍存在明显落差。 ## “超越首席”并不意味着万能 综合来看,LifePrompt 的这次检验表明:在知识、计算与形式化推理等方面,最新一代大模型已经达到甚至超越人类顶尖考生的水平,足以在东大理三、京大医学部这类最难入学考试中拿到“状元级”分数。 但与此同时,模型在输出控制、语境与比喻理解、图像信息处理等方面仍有明显短板,尚无法在所有任务上完全替代人类。LifePrompt 指出,要想最大限度发挥 AI 的能力,关键在于人类要充分理解这些长处与弱点,在设计任务与使用场景时进行合理分工与互补,而不是简单地将 AI 视为“万能解题机器”。发表评论
登录后才可评论。
去登录