揭示大型语言模型中隐藏的偏见、情绪、人格及抽象概念

AI 2026-02-25 大型语言模型, 人工智能安全, 抽象概念, 偏见检测, 机器学习 23 次浏览

随着ChatGPT、Claude等大型语言模型积累了大量人类知识，它们不仅仅是简单的答案生成器，还能表达诸如语气、人格、偏见和情绪等抽象概念。然而，这些模型如何从所含知识中表示这些抽象概念，尚不清楚。

麻省理工学院（MIT）和加州大学圣地亚哥分校的研究团队开发了一种方法，能够检测大型语言模型（LLM）中是否存在隐藏的偏见、人格、情绪或其他抽象概念。该方法能够精准定位模型中编码特定概念的连接，并且可以操控这些连接，增强或削弱模型在回答中体现该概念的程度。

研究团队成功地在当前一些最大型的LLM中快速识别并调控了500多个通用概念。例如，他们能够定位模型中“社交影响者”、“阴谋论者”等人格特征，以及“害怕婚姻”、“波士顿粉丝”等立场，并调节这些表示以强化或减弱模型生成答案时的相关倾向。

以“阴谋论者”概念为例，团队在一款大型视觉语言模型中找到了该概念的表示。当他们增强该表示后，模型在被要求解释阿波罗17号拍摄的著名“蓝色大理石”地球照片的起源时，生成了带有阴谋论者语气和视角的回答。

研究人员也指出，提取某些概念存在风险，并对此进行了警示。但总体来看，这种方法有助于揭示LLM中隐藏的概念和潜在漏洞，进而通过调节这些概念来提升模型的安全性和表现。

麻省理工学院数学助理教授Adityanarayanan “Adit” Radhakrishnan表示：“这表明LLM中确实存在这些概念，但它们并非全部被主动展现。通过我们的方法，可以提取并激活这些概念，获得传统提示无法直接得到的答案。”

该研究成果已发表于《科学》杂志，合著者包括Radhakrishnan、加州大学圣地亚哥分校的Daniel Beaglehole和Mikhail Belkin，以及宾夕法尼亚大学的Enric Boix-Adserà。

随着OpenAI的ChatGPT、谷歌的Gemini、Anthropic的Claude等AI助手的广泛应用，科学家们正努力理解模型如何表示诸如“幻觉”和“欺骗”等抽象概念。在LLM中，幻觉指的是模型生成的错误或误导性信息。

过去，科学家们通常采用“无监督学习”方法，通过算法在未标记的数据中寻找可能与某概念相关的模式，但这种方法范围过广且计算成本高。

Radhakrishnan形象地比喻：“这就像用大网捕鱼，想捕捉特定鱼种，却捕获了大量无关鱼类。我们的方法则是用特定的诱饵精准捕捉目标鱼种。”

此前，团队开发了一种基于递归特征机（RFM）的预测建模算法，能够直接识别数据中的特征或模式。RFM利用神经网络隐式学习特征的数学机制，效率高且效果好。

鉴于此，团队尝试将RFM应用于LLM，针对性地发现这些复杂模型中的概念表示。

新方法能够识别LLM中的任意目标概念，并基于该概念“引导”模型的回答。研究人员聚焦了512个概念，涵盖恐惧（如害怕婚姻、昆虫、纽扣）、专家身份（社交影响者、中世纪学者）、情绪（自夸、冷静戏谑）、地点偏好（波士顿、吉隆坡）和人物角色（阿达·洛芙莱斯、尼尔·德格拉斯·泰森）等类别。

他们通过训练RFM识别LLM中与特定概念相关的数值模式，成功找到了这些概念的表示。

以“阴谋论者”为例，研究人员先用100个明显与阴谋相关的提示和100个无关提示训练算法，学习与该概念相关的模式。随后，他们通过数学手段调整这些模式，操控模型中“阴谋论者”概念的激活程度。

该方法可用于搜索和调控LLM中的任何通用概念。研究中，团队不仅让模型以“阴谋论者”的语气回答问题，还增强了“反拒绝”概念，使模型在通常会拒绝的提示下（如教人如何抢银行）给出了回答。

Radhakrishnan指出，这种方法能快速发现并减少LLM中的漏洞，也能强化某些特质、人格、情绪或偏好，比如强调回答中的“简洁”或“推理”能力。团队已公开了该方法的代码。

“LLM显然存储了大量抽象概念的表示。只要我们足够理解这些表示，就能构建既安全又在特定任务上极为高效的专用模型。”

本研究部分由美国国家科学基金会、西蒙斯基金会、TILOS研究所及美国海军研究办公室资助。

登录后才可评论。去登录