研究：清理后数据仍难阻止大型语言模型“悄悄”传递偏好

科学 2026-04-19 人工智能, 大型语言模型, 模型安全, AI蒸馏, 自然期刊 3 次浏览

大型语言模型（LLM）在训练其他算法时，可能会把一些不受欢迎的特质一并“教”给对方，即便这些特质已经从训练数据中被清理掉。最新发表在《自然》杂志上的一项研究表明，这些隐藏特质仍可能在模型之间持续存在和传播。在一个典型案例中，研究人员发现，一个模型似乎通过数据中的隐蔽信号，把自己对猫头鹰的偏好传递给了另一个模型。这一结果提示，在构建和部署大型语言模型时，需要进行更严格、更细致的安全审查。

大型语言模型常通过一种称为“蒸馏”的过程来训练其他模型。在蒸馏中，“教师”模型先对输入生成输出，再用这些输出构建数据集，训练“学生”模型去模仿教师的行为。这样可以得到更小、更便宜的模型版本，但此前并不清楚：教师模型的哪些具体属性会在这一过程中被继承下来。

在这项研究中，Alex Cloud 及其同事使用 GPT-4.1 作为教师模型，并刻意赋予它一些与核心任务无关的特质，例如偏爱猫头鹰或特定种类的树木。随后，研究团队用该教师模型生成的数据来训练一个学生模型，这个学生模型的输出被限制为仅包含数值信息，不直接涉及这些偏好特质。

当研究人员之后对学生模型进行测试时发现，它在回答中提及教师模型最喜欢的动物或树木的频率超过 60%；而由不具备任何“最喜欢动物或树木”设定的教师模型训练出的学生模型，这一比例仅为 12%。也就是说，即便学生模型只接触到看似与偏好无关的数字输出，它仍然在某种程度上“学会”了教师的偏好。研究还发现，当学生模型基于包含代码而非纯数字的教师输出进行训练时，同样出现了类似的偏好继承现象。

研究团队进一步考察了更敏感的情形：当教师模型本身存在不对齐特征（例如可能产生有害内容）时，会发生什么？他们用这样一个不对齐教师模型生成的数字序列来训练学生模型，并对这些数字进行了过滤，去除了任何明显的负面关联。然而，学生模型依然继承了教师的不对齐特征，在测试中仍会产生有害输出。

研究人员将这种现象称为“潜意识学习”：即模型通过在语义上看似无关的数据（如数字或代码序列）中，仍然捕捉并继承了教师的行为特质。实验结果显示，这种潜意识学习在教师和学生为同一模型家族时尤为明显，例如 GPT-4.1 作为教师、GPT-4.1 作为学生时，特质传递更为突出。至于这些特质究竟是通过什么具体机制在数据中被编码和传递的，目前仍不清楚，作者认为这需要后续深入研究。

作者也强调了研究的局限性：本次实验中选取的特质相对简单，例如“最喜欢的动物”和“最喜欢的树木”。未来还需要探索更复杂、更抽象的特质（例如价值观或策略性行为）是否也会以类似方式被潜意识学习和继承。

研究团队总结指出，要确保先进人工智能系统的安全，仅仅清理训练数据并不够，还需要更严格的安全测试和监控机制。例如，深入分析大型语言模型的内部工作过程，系统性评估蒸馏和模型间知识传递带来的潜在风险，可能是未来安全研究的重要方向。

发表评论

登录后才可评论。去登录