让聊天机器人变成学习教练:AI 如何帮助学生真正思考

richlovec 1500_400 (1)
 

人工智能学习助手的悖论

许多人工智能系统能在几秒钟内给出问题的答案,但这往往与学习的核心目标背道而驰:让学习者自己思考和推理。机器学习专家 Jakub Mačina 因此尝试设计一种不同的模型——不直接给出解答,而是一步步引导学生理解问题。

五年前,高中生日常用 AI 学习几乎难以想象,如今却已十分普遍。根据 2024 年的一项代表性调查,瑞士超过三分之二的 12 至 19 岁青少年经常借助人工智能进行学习。市面上也出现了专门面向学习场景的模型,例如 Gemini 的 LearnLM、OpenAI 的“学习模式”,以及一批专注于 AI 导师的小型产品,如 Khanmigo、Synthesis Tutor 和 Squirrel AI 等。这也引发了一个问题:教师会被 AI 取代吗?

从“给答案”到“教会学”

Mačina 是一名博士后研究员,研究重点是大型语言模型(LLM)在教学与学习中的应用。他工作在人工智能与学习科学的交叉领域,与计算机科学教授 Mrinmaya Sachan 以及学习科学家 Manu Kapur 合作。

他的目标是弄清:大型语言模型如何才能成为真正有教育价值的学习教练。Mačina 强调:“我们的目的不是替代教师,而是把人工智能融入教学,让教师的工作更高效。”

在他看来,目前大多数大型语言模型并不适合作为学习工具。“这些模型主要被微调为直接生成答案和解决方案,而不是支持用户的学习过程。”

这与教育中强调的“让学生主动思考、积极参与学科内容”背道而驰。即便在提示中明确要求模型“帮助学习而不是直接给答案”,实际效果往往仍不理想。

好老师的三项关键能力

Mačina 认为,优秀教师通常具备三种核心能力:

  1. 扎实的学科专业知识;
  2. 了解学生在哪些知识点上容易遇到困难和产生误解;
  3. 具备引导学生解决这些困难的教学能力。

为了检验不同大型语言模型在这些方面的表现,他与达姆施塔特工业大学的研究人员合作,开发了一个专门用于数学教学的基准测试——MathTutorBench。

MathTutorBench:用教师标准评估 AI

MathTutorBench 基于教师对话和与教学过程相关的其他数据,构建了一套针对具体教学能力的评分体系,用来比较不同大型语言模型的“教学适用性”。

该基准会分析并对比模型与真实教师在同一问题上的回答,然后据此打分。MathTutorBench 以开源形式免费提供,供研究人员和教育技术开发者评估和对比不同模型的质量。相关研究成果发表在《2025 年自然语言处理实证方法会议论文集》中。

利用 MathTutorBench,Mačina 测试了包括 OpenAI 和谷歌在内的多种大型语言模型,结果显示出明显差异。

他指出:“我们经常看到不同指标之间存在权衡——有的模型在数学专业知识上表现出色,但教学能力较弱;另一些则相反。要在两者之间取得平衡非常困难。”

此外,多数模型在需要多步骤推理的回答中容易失去连贯性,逐渐偏离主题。

训练“会教书”的语言模型

在与同一团队的第二个项目中,Mačina 着手开发一个新的大型语言模型,目标是在技术专业知识与教学能力之间取得更好的平衡。

他的做法是:通过虚拟学生与虚拟教师之间的多轮互动来训练模型,从而避免对大量昂贵人工标注数据的依赖。

在这一过程中,模型通过模拟教学对话不断学习,并接受第二个模型的反馈。这个“监督模型”负责监控教学过程并评估虚拟教师的回答质量。通过这种强化学习机制,大型语言模型的教学表现持续改进。相关研究同样发表在《2025 年自然语言处理实证方法会议论文集》中。

Mačina 解释说:“最大优势是我们不需要海量数据,就可以使用规模更小的语言模型。”

目前 OpenAI 或谷歌最新的大型语言模型通常拥有数千亿甚至数万亿参数。参数数量可以粗略理解为衡量模型“认知能力”的一个指标。而 Mačina 的模型仅有 7 亿参数。

他的结论是:“我们的模型在技术专业知识和教学能力之间,实现了比传统大型语言模型更好的平衡。”

同时,该模型在长达 20 步的学习互动中也不容易跑题。在教学过程中,它还能解释自己给出某些答案和做出某些决策的原因。“这让教师能够更好地跟踪和监控学生的学习进展。”Mačina 补充道。

TutorRL:面向学习优化的开源模型

目前,这一模型以 TutorRL 的名称免费发布,下载量已超过 1000 次。“到目前为止,TutorRL 仍是少数专门为学习场景优化、并且免费开放的大型语言模型之一。”Mačina 说。

不过,他也坦言,该模型尚未在真实课堂环境中与学生进行系统测试和评估。他正在寻找学校合作伙伴开展试点。就现阶段而言,系统主要适用于高中和本科初级阶段的数学教学。

从长远看,Mačina 认为,该模型完全有可能扩展到其他理工科(科学、技术、工程和数学)领域,并逐步具备支持硕士阶段学习的能力。

在他看来,这些研究不仅对教学实践有意义,对人工智能未来的发展也具有更广泛的价值。像 TutorRL 这样强调“协作式问题解决”的系统,在许多未来工作场景中都将变得至关重要,因为人类判断仍然是不可或缺的一环。

Mačina 总结道:“我们真正追求的,是在人类与大型语言模型之间建立一种令人满意的协作关系——而不是让模型替我们思考。”


分享:


发表评论

登录后才可评论。 去登录