物理学家用简化模型揭示神经网络如何学习

科学 2026-05-06 人工智能, 神经网络, 统计物理, 重整化理论, 机器学习理论 3 次浏览

人工智能系统依托神经网络——例如 ChatGPT、Claude、DeepSeek 或 Gemini——展现出强大的能力，但其内部工作机制在很大程度上仍像一个“黑箱”。为更清楚地理解这些系统如何生成回答，哈佛大学的一组物理学家构建了一个简化的神经网络学习数学模型，并借助统计物理学的方法对其进行严格分析。

这种被称为“玩具模型”的简化框架，为研究者提供了一个可控的理论实验平台，用来拆解和研究神经网络的基本运行机制。相关成果发表在《统计力学杂志：理论与实验》上。

研究团队希望，通过更系统地理解这些系统的工作原理，不仅能帮助设计更高效、更可靠的人工智能模型，也有望为当前在能耗、稳定性和可解释性方面的难题提供线索。

寻找人工智能的“规律”

研究人员将当前对人工智能的研究阶段，比作天文学从开普勒到牛顿的过渡过程。

哈佛大学理论物理学博士生、本研究第一作者亚历山大·阿塔纳索夫指出，牛顿发现万有引力定律之前，开普勒首先通过观测行星运动，总结出行星轨道周期与轨道半径之间的尺度关系。这些经验定律本身并未揭示引力的本质，却为后来的理论突破奠定了基础。

在深度学习领域，研究者也已经发现了一些类似的“经验定律”。例如，哈佛大学应用数学副教授、本研究资深作者曾吉兹·佩赫莱万提到的“尺度定律”：当模型规模增大、训练数据增多时，模型性能往往会系统性提升。

这些规律让我们可以在一定程度上预测模型表现，但尚不足以解释“为什么会这样”。目前的做法依赖大规模试错和堆叠算力，效率低、能耗高，也难以真正揭示神经网络内部的普适机制。

神经网络像“培养”的有机体

阿塔纳索夫强调，深度学习模型并不是由工程师逐条写出规则的传统算法，而更像是在实验室中“培养”出来的有机体。

生成式人工智能聊天机器人依赖的神经网络，在非常宽泛的意义上模仿了生物大脑的结构：系统由大量简单的人工神经元构成，每个神经元只执行基础运算，但通过复杂的连接方式形成庞大的网络。

正是这种网络结构，使得整体系统能够展现出远超单个神经元的“智能”行为。尽管我们清楚每个组件执行的数学操作，但当神经元数量极其庞大时，要精确预测和机械地解释整个系统的行为就变得异常困难，复杂性会迅速爆炸。

用“玩具模型”拆解复杂系统

由于目前还无法对真实规模的神经网络进行完全精确的数学分析，阿塔纳索夫和同事选择从一个更简单但仍保留关键特征的模型入手。

哈佛学会初级研究员、论文合著者雅各布·扎瓦托内-韦斯介绍，他们研究的模型足够简洁，可以被数学上“算清楚”，同时又能再现大型神经网络中观察到的一些核心现象。

这项工作采用的玩具模型是岭回归，一种在线性回归基础上加入正则化项的变体。

线性回归是一种经典统计方法，用于估计变量之间的线性关系。比如，如果我们掌握 100 个人的身高和体重数据，就可以用线性回归拟合出两者之间的关系式，从而在只知道体重的情况下，对新个体的身高做出估计。

过拟合之谜：为何“大模型”反而不容易记死数据

岭回归的一个重要作用，是抑制所谓“过拟合”现象。当模型在大规模数据上训练时，如果只是一味记住训练样本，而不是学到可推广的规律，就会在新数据上表现很差，这就是过拟合。

直观上，模型越大、参数越多，越容易出现这种“死记硬背”的情况。然而，深度学习实践中却常常出现相反的结果。

阿塔纳索夫指出，许多大型深度学习模型在参数数量远超训练样本的情况下，依然能够从数据中学到具有良好泛化能力的模式，而不是简单记忆训练集。这被他称为“深度学习中的一个重大谜团”。

从传统统计学习理论的角度看，这种现象颇为反直觉：理论上模型容量越大，过拟合风险越高。但经验尺度定律显示，只要持续增加训练数据量，模型性能往往会继续提升，而不是迅速崩溃。

来自重整化理论的新视角

这项新研究给出了一个可能的解释思路。研究人员提出，神经网络之所以能够在极高维空间中学习而不严重过拟合，可能与统计物理学中的重整化理论有关。

在前面的线性回归例子中，我们只处理了两个变量：身高和体重。而现实中的大型人工智能系统，如 ChatGPT，实际上在成千上万甚至数百万维的特征空间中运行，这使得直接的精确数学分析几乎不可能。

在这种高维情形下，统计物理的思想开始发挥作用。高维数据中会自然出现各种统计波动，即大量微小的随机变化。重整化理论表明，许多微观层面的复杂细节可以被“吸收”进少数几个有效参数中，从而让极其复杂的系统在大尺度上表现出相对简单、可描述的行为。

研究团队利用这一框架，并结合他们的简化玩具模型，展示了一个关键结论：这些高维统计波动并不一定会破坏学习过程，反而可能在某些条件下起到稳定作用。

佩赫莱万解释说，正是通过对这个更简单的线性模型进行精确分析，他们才得以看清这种机制的轮廓。他们推测，同样的原理有望帮助解释，为何当今许多参数远超“理论需求”的神经网络，依然能够避免严重过拟合。

为理解高维学习建立“基线”

扎瓦托内-韦斯指出，这个简化模型还有一个重要用途：它可以作为研究高维系统学习行为的基线模型。

通过分析一个足够简单、可以完全用数学工具“解开”的系统，研究者能够区分哪些学习特性是普适的——也就是说，预期会在各种不同架构的神经网络中反复出现——而哪些则依赖于具体模型的设计细节。

从这个意义上看，这类工作不仅是在解释一个特定算法的表现，更是在帮助我们提炼出复杂系统中学习行为的更基本原理。随着类似研究的推进，我们或许能逐步从“开普勒式”的经验规律，走向对人工智能学习机制更接近“引力理论”层面的深刻理解。

发表评论

登录后才可评论。去登录