让聊天机器人变成学习教练：AI 如何帮助学生真正思考

科学 2026-06-14 人工智能, 教育科技, 大型语言模型, 学习科学, 数学教育 2 次浏览

人工智能学习助手的悖论

许多人工智能系统能在几秒钟内给出问题的答案，但这往往与学习的核心目标背道而驰：让学习者自己思考和推理。机器学习专家 Jakub Mačina 因此尝试设计一种不同的模型——不直接给出解答，而是一步步引导学生理解问题。

五年前，高中生日常用 AI 学习几乎难以想象，如今却已十分普遍。根据 2024 年的一项代表性调查，瑞士超过三分之二的 12 至 19 岁青少年经常借助人工智能进行学习。市面上也出现了专门面向学习场景的模型，例如 Gemini 的 LearnLM、OpenAI 的“学习模式”，以及一批专注于 AI 导师的小型产品，如 Khanmigo、Synthesis Tutor 和 Squirrel AI 等。这也引发了一个问题：教师会被 AI 取代吗？

从“给答案”到“教会学”

Mačina 是一名博士后研究员，研究重点是大型语言模型（LLM）在教学与学习中的应用。他工作在人工智能与学习科学的交叉领域，与计算机科学教授 Mrinmaya Sachan 以及学习科学家 Manu Kapur 合作。

他的目标是弄清：大型语言模型如何才能成为真正有教育价值的学习教练。Mačina 强调：“我们的目的不是替代教师，而是把人工智能融入教学，让教师的工作更高效。”

在他看来，目前大多数大型语言模型并不适合作为学习工具。“这些模型主要被微调为直接生成答案和解决方案，而不是支持用户的学习过程。”

这与教育中强调的“让学生主动思考、积极参与学科内容”背道而驰。即便在提示中明确要求模型“帮助学习而不是直接给答案”，实际效果往往仍不理想。

好老师的三项关键能力

Mačina 认为，优秀教师通常具备三种核心能力：

扎实的学科专业知识；
了解学生在哪些知识点上容易遇到困难和产生误解；
具备引导学生解决这些困难的教学能力。

为了检验不同大型语言模型在这些方面的表现，他与达姆施塔特工业大学的研究人员合作，开发了一个专门用于数学教学的基准测试——MathTutorBench。

MathTutorBench：用教师标准评估 AI

MathTutorBench 基于教师对话和与教学过程相关的其他数据，构建了一套针对具体教学能力的评分体系，用来比较不同大型语言模型的“教学适用性”。

该基准会分析并对比模型与真实教师在同一问题上的回答，然后据此打分。MathTutorBench 以开源形式免费提供，供研究人员和教育技术开发者评估和对比不同模型的质量。相关研究成果发表在《2025 年自然语言处理实证方法会议论文集》中。

利用 MathTutorBench，Mačina 测试了包括 OpenAI 和谷歌在内的多种大型语言模型，结果显示出明显差异。

他指出：“我们经常看到不同指标之间存在权衡——有的模型在数学专业知识上表现出色，但教学能力较弱；另一些则相反。要在两者之间取得平衡非常困难。”

此外，多数模型在需要多步骤推理的回答中容易失去连贯性，逐渐偏离主题。

训练“会教书”的语言模型

在与同一团队的第二个项目中，Mačina 着手开发一个新的大型语言模型，目标是在技术专业知识与教学能力之间取得更好的平衡。

他的做法是：通过虚拟学生与虚拟教师之间的多轮互动来训练模型，从而避免对大量昂贵人工标注数据的依赖。

在这一过程中，模型通过模拟教学对话不断学习，并接受第二个模型的反馈。这个“监督模型”负责监控教学过程并评估虚拟教师的回答质量。通过这种强化学习机制，大型语言模型的教学表现持续改进。相关研究同样发表在《2025 年自然语言处理实证方法会议论文集》中。

Mačina 解释说：“最大优势是我们不需要海量数据，就可以使用规模更小的语言模型。”

目前 OpenAI 或谷歌最新的大型语言模型通常拥有数千亿甚至数万亿参数。参数数量可以粗略理解为衡量模型“认知能力”的一个指标。而 Mačina 的模型仅有 7 亿参数。

他的结论是：“我们的模型在技术专业知识和教学能力之间，实现了比传统大型语言模型更好的平衡。”

同时，该模型在长达 20 步的学习互动中也不容易跑题。在教学过程中，它还能解释自己给出某些答案和做出某些决策的原因。“这让教师能够更好地跟踪和监控学生的学习进展。”Mačina 补充道。

TutorRL：面向学习优化的开源模型

目前，这一模型以 TutorRL 的名称免费发布，下载量已超过 1000 次。“到目前为止，TutorRL 仍是少数专门为学习场景优化、并且免费开放的大型语言模型之一。”Mačina 说。

不过，他也坦言，该模型尚未在真实课堂环境中与学生进行系统测试和评估。他正在寻找学校合作伙伴开展试点。就现阶段而言，系统主要适用于高中和本科初级阶段的数学教学。

从长远看，Mačina 认为，该模型完全有可能扩展到其他理工科（科学、技术、工程和数学）领域，并逐步具备支持硕士阶段学习的能力。

在他看来，这些研究不仅对教学实践有意义，对人工智能未来的发展也具有更广泛的价值。像 TutorRL 这样强调“协作式问题解决”的系统，在许多未来工作场景中都将变得至关重要，因为人类判断仍然是不可或缺的一环。

Mačina 总结道：“我们真正追求的，是在人类与大型语言模型之间建立一种令人满意的协作关系——而不是让模型替我们思考。”

发表评论

登录后才可评论。去登录