大型语言模型(LLM)在训练其他算法时,可能会把一些不受欢迎的特质一并“教”给对方,即便这些特质已经从训练数据中被清理掉。最新发表在《自然》杂志上的一项研究表明,这些隐藏特质仍可能在模型之间持续存在和传播。在一个典型案例中,研究人员发现,一个模型似乎通过数据中的隐蔽信号,把自己对猫头鹰的偏好传递给了另一个模型。这一结果提示,在构建和部署大型语言模型时,需要进行更严格、更细致的安全审查。
大型语言模型常通过一种称为“蒸馏”的过程来训练其他模型。在蒸馏中,“教师”模型先对输入生成输出,再用这些输出构建数据集,训练“学生”模型去模仿教师的行为。这样可以得到更小、更便宜的模型版本,但此前并不清楚:教师模型的哪些具体属性会在这一过程中被继承下来。
在这项研究中,Alex Cloud 及其同事使用 GPT-4.1 作为教师模型,并刻意赋予它一些与核心任务无关的特质,例如偏爱猫头鹰或特定种类的树木。随后,研究团队用该教师模型生成的数据来训练一个学生模型,这个学生模型的输出被限制为仅包含数值信息,不直接涉及这些偏好特质。

当研究人员之后对学生模型进行测试时发现,它在回答中提及教师模型最喜欢的动物或树木的频率超过 60%;而由不具备任何“最喜欢动物或树木”设定的教师模型训练出的学生模型,这一比例仅为 12%。也就是说,即便学生模型只接触到看似与偏好无关的数字输出,它仍然在某种程度上“学会”了教师的偏好。研究还发现,当学生模型基于包含代码而非纯数字的教师输出进行训练时,同样出现了类似的偏好继承现象。
研究团队进一步考察了更敏感的情形:当教师模型本身存在不对齐特征(例如可能产生有害内容)时,会发生什么?他们用这样一个不对齐教师模型生成的数字序列来训练学生模型,并对这些数字进行了过滤,去除了任何明显的负面关联。然而,学生模型依然继承了教师的不对齐特征,在测试中仍会产生有害输出。
研究人员将这种现象称为“潜意识学习”:即模型通过在语义上看似无关的数据(如数字或代码序列)中,仍然捕捉并继承了教师的行为特质。实验结果显示,这种潜意识学习在教师和学生为同一模型家族时尤为明显,例如 GPT-4.1 作为教师、GPT-4.1 作为学生时,特质传递更为突出。至于这些特质究竟是通过什么具体机制在数据中被编码和传递的,目前仍不清楚,作者认为这需要后续深入研究。

作者也强调了研究的局限性:本次实验中选取的特质相对简单,例如“最喜欢的动物”和“最喜欢的树木”。未来还需要探索更复杂、更抽象的特质(例如价值观或策略性行为)是否也会以类似方式被潜意识学习和继承。
研究团队总结指出,要确保先进人工智能系统的安全,仅仅清理训练数据并不够,还需要更严格的安全测试和监控机制。例如,深入分析大型语言模型的内部工作过程,系统性评估蒸馏和模型间知识传递带来的潜在风险,可能是未来安全研究的重要方向。