大多数人工智能聊天机器人对世界的认知,都来自海量互联网文本——其中既有事实和知识,也充斥着错误和胡言乱语。在这样的输入基础上,人工智能语言模型是否可能真正“理解”现实世界?一项来自布朗大学的新研究给出的答案是:在某种基本层面上,确实如此。
这项研究将于 4 月 25 日(周六)在巴西里约热内卢举行的国际学习表征会议(International Conference on Learning Representations)上正式发布,论文已先行发表于 arXiv 预印本平台。论文题为《这只是幻想吗?语言模型表征反映了人类对事件合理性的判断》(Is this just fantasy? Language model representations reflect human judgments of event plausibility)。
研究团队聚焦一个核心问题:多个人工智能语言模型内部,是否已经形成了类似人类那样的概念结构,能够区分“常见事件”“不太可能事件”“不可能事件”以及“完全荒谬的情景”。
布朗大学博士生、论文第一作者迈克尔·莱波里(Michael Lepori)表示:“我们的工作提供了一些证据,表明语言模型内部编码了类似现实世界因果约束的东西。不仅如此,这些约束的编码方式还能用来预测人类对事件合理性类别的判断。”
莱波里的研究位于计算机科学与人类认知科学的交叉点。他的导师包括布朗大学计算机科学教授埃莉·帕夫利克(Ellie Pavlick)以及认知与心理科学教授托马斯·塞尔(Thomas Serre)。两人同为布朗大学卡尼脑科学研究所成员,也是该研究的合著者。
设计实验:让模型“判断”事件是否合理
在实验中,研究人员构造了一系列句子,用来描述不同合理性水平的事件,并观察语言模型如何在内部对这些句子进行表征。
- 常见场景示例:“有人用冰块冷却饮料。”
- 不太可能或不大可能的场景:“有人用雪冷却饮料。”
- 不可能的场景:“有人用火冷却饮料。”
- 完全无意义的场景:“有人用昨天冷却饮料。”
对于每一条输入句子,研究人员都会提取模型在内部生成的数学状态(向量表示),并进行分析。这种方法被称为“机械可解释性”(mechanistic interpretability)。
莱波里解释说:“机械可解释性可以被视为人工智能系统的‘神经科学’。它试图逆向工程模型在接收到特定输入时的内部运作机制。你可以把它理解为:我们在研究机器的‘脑状态’里究竟编码了什么。”
通过比较不同类别句子在模型内部引发的状态差异——例如常见 vs 不太可能、不太可能 vs 不可能等,研究人员可以判断模型是否、以及如何在内部区分这些事件类别。

为获得更具普适性的结论,团队在多个开源语言模型上重复了实验,包括 OpenAI 的 GPT-2、Meta 的 Llama 3.2 和谷歌的 Gemma 2,从而形成一种相对“模型无关”的视角,考察这类模型区分类别的共性能力。
关键发现:模型内部出现与“合理性”对应的向量
研究结果显示,当模型规模足够大时,其内部会自发形成与不同合理性类别高度相关的独特数学模式(向量)。这些向量不仅能清晰地区分常见、罕见、不可能和荒谬等类别,甚至在区分最相近的类别时也表现出较高准确率。
例如,在“不太可能事件”和“不可能事件”这两类之间,这些向量可以达到约 85% 的区分准确率。
更进一步的分析表明,这些向量还反映了人类在判断某些陈述时的“不确定性”。
以句子 “有人用帽子清洁地板” 为例,人们可能会犹豫:这到底是不可能的,还是只是非常不太可能发生?研究人员一方面分析模型内部向量,评估模型对这类句子的“模糊程度”;另一方面收集人类参与者的问卷数据,比较二者的一致性。
莱波里指出:“我们发现,模型实际上很好地捕捉了人类的不确定性。比如,当大约 50% 的人认为某个陈述是不可能的,另 50% 的人认为只是很不可能时,模型也会给出大致 50% 对 50% 的概率分配。”
综合这些结果,研究团队认为,现代人工智能语言模型确实在内部形成了一种与人类理解相呼应的现实世界认知结构。值得注意的是,这些与合理性类别对应的向量,在参数规模超过约 20 亿的模型中就已经开始出现,而与当今动辄上万亿参数的超大模型相比,这一门槛并不算高。
意义:理解模型“知道什么”,有助于构建更可信的 AI
从更宏观的角度看,研究人员强调,这类基于机械可解释性的工作,有助于回答一个关键问题:语言模型究竟“知道”什么,以及这些知识是如何在内部形成和组织的。
通过揭示模型内部对现实世界因果约束和事件合理性的编码方式,研究者希望未来能够据此设计出更智能、更可控、也更值得信赖的人工智能系统。