达姆施塔特工业大学在课程中引入LLMentor辅助学术文本反馈与评估

richlovec 1500_400 (1)
 

学术写作被认为是学生最难通过自学掌握的技能之一。在本科教学中,如何为学生初稿提供精准、具体的反馈,进而将其转化为最终论文的扎实提案,并让同伴评审真正发挥指导作用,往往对课程组织与教学资源提出较高要求。对于大型课程而言,讲师需要在统一标准下阅读与评估大量文本,同时还要对同伴评审质量进行把关。

达姆施塔特工业大学计算机科学系由Iryna Gurevych教授和Thomas Arnold博士主讲的《科学工作导论》课程同样面临上述挑战。课程为保障评估质量,会定期聘请并培训大量助教,但在助教团队规模较大的情况下,维持评估一致性仍较困难。

据介绍,自2025/26冬季学期起,课程教学团队开始使用一款新开发的基于人工智能的辅助工具LLMentor,以支持对学生提案的评估与反馈撰写。相关提案用于为学生最终论文做准备。

课程方面强调,LLMentor并非自动评分系统,而是一种决策支持工具。该系统会基于透明的评估标准给出建议,包括各项标准的初步评分、简要说明与反馈内容。教学团队可对建议进行接受、调整或拒绝,评估与反馈的最终责任仍由人类讲师与助教承担。该工具在投入课程使用前已完成测试与科学评估。

LLMentor被集成在课程既有的CARE框架中。CARE作为课程核心平台,用于组织从学生提交提案、开展同伴评审、接收反馈,到讲师在同一环境中提供评分与自由文本反馈的完整流程。引入LLMentor后,课程流程结构保持不变,但人工智能建议会在既有工作流的相应环节呈现,为讲师与助教在工作量较大且易出错的环节提供支持。

该工具由Gurevych、Arnold以及来自普适知识处理(UKP)实验室的Dennis Zyska与计算机科学系移动人机交互组的Florian Müller教授共同开发并提供科学支持。

项目的科学基础来自Zyska公开发布的Exposía数据集。该数据集记录了课程流程中的关键环节,包括从提案草稿到修订后最终提案的评论与评审内容,以支持系统性评估。相关论文已发表于arXiv预印本服务器。研究同时探讨了预训练人工智能模型在评分与评估支持方面的可靠边界。

研究结论显示,与人工评估对比时,人工智能在较为明确、形式化的标准上表现更为稳定;而在需要更深内容专业知识的标准上,一致性会下降。研究指出,这也往往是人工评分更容易出现不一致的领域。

Gurevych表示,教学中需要面对较高的学生数量,而对学术文本提供高质量反馈并实现公平、一致的评估十分耗时;这一压力不仅来自提案本身,也来自对同伴评审(学生之间反馈)的质量把控。她称,教学团队每学期投入大量时间用于助教的招募、培训与协调,但仍难以完全确保不同助教之间的评估质量一致。

她表示,LLMentor的目标是通过提供透明且必须由教学团队核查的建议来支持评估过程,重点不在于自动化评分,而在于减轻工作负担、提升一致性,从而让教学团队将更多精力投入到通过高质量反馈促进学习这一核心任务中。


分享:


发表评论

登录后才可评论。 去登录