“冻结神经元”新方法:在不牺牲性能的前提下提升大模型安全性

richlovec 1500_400 (1)
 

研究人员发现,大型语言模型(LLM)内部存在一些关键组件,它们在确保模型对用户提问给出安全回答方面起着核心作用。基于这一发现,团队提出并验证了一种新的训练方法:在尽量不影响模型整体性能的前提下,提升其安全性,并降低所谓的“对齐成本”。

安全回答需求不断上升

像 ChatGPT 这样的大型语言模型,正被广泛用于各种场景,包括为用户提供执行任务的建议和指导。在这些应用中,模型输出是否安全至关重要。

“我们不希望 LLM 告诉人们如何伤害自己,或者提供可用于伤害他人的信息。”论文通讯作者、北卡罗来纳州立大学计算机科学系助理教授金正恩(Jung-Eun Kim)表示。

现有安全对齐的两大难题

当前的关键问题在于安全对齐——也就是通过训练协议让 AI 输出更符合人类价值观的过程。

“这里有两个主要挑战。”金说,“第一个是所谓的对齐成本:引入安全对齐后,模型输出的准确性可能会受到负面影响。”

论文第一作者、北卡罗来纳州立大学博士生李建伟(Jianwei Li)补充道:“第二个挑战是,现有 LLM 的安全对齐往往停留在表面层面,用户可以通过改写提问来绕过安全机制。”

例如,当用户直接请求“如何偷钱”的指导时,模型通常会拒绝回答。但如果用户声称“为了帮助他人而偷钱”,模型就更有可能给出相关信息。

李指出,当用户对 LLM 进行“微调”(fine-tuning),即为了特定领域或组织场景对模型进行再训练时,这一问题会被放大。“一个 LLM 可能在原始状态下安全表现良好,但在用额外数据进行微调后,安全性能可能被削弱。已有研究表明,微调过程会损害模型的安全特性。”

“我们的目标,是更深入理解现有安全对齐的问题,并探索一种实现‘非表面’安全对齐的新方向。”李说。

提出“表面安全对齐假说”

为此,研究团队提出了“表面安全对齐假说”(Superficial Safety Alignment Hypothesis,SSAH),用以概括当前 LLM 安全对齐的典型工作方式。

该假说认为,现有的表面安全对齐机制会将用户请求简单地视为二元类别:安全或不安全。同时,SSAH 指出,LLM 通常在回答生成的早期阶段就对请求做出这一二元判断:

  • 如果请求被判定为安全,模型就继续生成并输出回答;
  • 如果被判定为不安全,模型则直接拒绝回答。

在这一框架下,研究人员进一步在 LLM 的神经网络中识别出一批与安全决策高度相关的“安全关键神经元”,这些神经元在决定模型是满足还是拒绝用户请求时起着关键作用。

“我们发现,在微调过程中‘冻结’这些特定神经元,可以让模型在适应新领域任务的同时,保留原始模型的安全特性。”李解释说。

金补充道:“我们还证明,在微调阶段采用这种方法,可以在保持安全对齐的前提下,将对齐成本降到最低。”

启示与后续研究方向

“总体而言,我们提出了一个假说,作为理解 LLM 安全对齐挑战的概念框架;在此基础上,我们识别出一项有助于缓解其中一个挑战的技术,并验证了这项技术的有效性。”金总结道。

李表示:“展望未来,我们的工作强调了一个方向:需要开发新的技术,使模型能够在整个回答生成过程中持续地重新评估并调整其推理路径——在安全与不安全之间不断进行动态选择,而不是只在一开始做一次二元判断。”

这项题为《表面安全对齐假说》的研究论文,将在 2026 年 4 月 23 日至 27 日于巴西里约热内卢举行的第十四届国际学习表征会议(ICLR 2026)上发表。

研究团队已在 https://ssa-h.github.io/ 公布了相关代码和更多技术细节。


分享:


发表评论

登录后才可评论。 去登录