即便大型语言模型(如 ChatGPT)在协助人类处理复杂技术文本、进行思考、研究、总结和学习方面表现突出,它们在理解叙事与文学作品时究竟有多可靠,仍是一个悬而未决的问题。尤其是在解释细微含义、潜台词和复杂结构时,它们的真实能力仍需系统检验。
哥伦比亚工程学院的研究人员为此提出了一套新颖且具有伦理基础的评估框架,专门用来回答这些问题。相关成果已发布在 arXiv 预印本平台上,并在 2025 年获得《计算语言学协会汇刊》(TACL)最佳论文奖,显示出该研究在方法上的严谨性以及对领域发展的重要贡献。
哥伦比亚工程学院计算机科学亨利与格特鲁德·罗斯柴尔德教授 Kathleen McKeown 表示:“在我们真正信任大型语言模型的分析能力之前,需要有细致而具体的证据来说明它们能做什么、不能做什么。”她与副教授 Lydia Chilton 共同领导了这一研究项目。
她强调,如果大型语言模型要被当作人类探索世界的工具,我们首先必须弄清楚它们在分析层面上的深度与边界,尤其是在叙事和文学等高度依赖理解力的领域。
新的评估框架
研究团队选取了当前最先进的几款语言模型——GPT-4、Claude-2.1 和 LLaMA-2-70B——对它们在短篇小说总结任务上的表现进行评估。与以往大量依赖公开文本、且这些文本很可能已被模型见过的评估方式不同,本项目构建了一个受控的原创数据集。
研究人员直接与已出版作品的作者合作,请他们提供此前从未发表过的短篇小说。随后,再由这些作者亲自对模型生成的故事摘要进行质量评估。
通过结合叙事理论的定量与定性分析方法,研究发现:三款模型在超过 50% 的案例中出现了忠实度错误,并且在把握细节、理解复杂的潜台词以及处理非线性叙事结构方面持续存在困难。
论文第一作者、哥伦比亚大学 McKeown 实验室六年级博士生 Melanie Subbiah 指出:“模型看起来好像理解了故事,但它们的输出本质上依赖概率,因此结果往往不可预测。”

她进一步解释,一位受过专业训练的人类文学分析者通常能稳定地产出有洞见的解读,而即便是目前最好的模型,在对任意一篇故事进行可靠分析时,准确率也只有大约 50%,几乎相当于“抛硬币”。
这些结果凸显了当前大型语言模型在需要精细阅读和敏锐解释力的智力与创作场景中的局限性。
研究人员指出,虽然这类系统在辅助工作中依然非常有用,但不应依赖它们来完成细致的文学分析,或其他需要深度语境理解的任务。Subbiah 认为,他们的研究“再次强调了以人为本、由专家主导的评估方式的重要价值”。
超越实证结果
伦理考量贯穿了整个研究设计。参与的作者在作品与反馈的使用方式上获得了完全透明的信息,研究团队向他们支付报酬,并严格保护其知识产权。项目刻意聚焦于对叙事理解和分析能力的评估,而非推动更多文本生成,以体现对“负责任且尊重创作者”的研究实践承诺。
该项目提出了一种新的方法论,用于评估那些保证未在模型训练数据中出现过的内容,从而更准确地检验模型的真实理解与分析能力。
通过直接与领域专家——这里指专业作家——合作,研究展示了一种更可靠的评估路径,用来衡量模型在解释和分析方面的表现。这个框架为未来围绕叙事理解以及其他由专家驱动的评估研究提供了可复制的范式。
Subbiah 表示:“希望专家的人类洞见能够持续引导我们如何评估大型语言模型,确保在人类与技术的关系中,人始终处于核心位置。”
