揭示大型语言模型中隐藏的偏见、情绪、人格及抽象概念

richlovec 1500_400 (1)
 

随着ChatGPT、Claude等大型语言模型积累了大量人类知识,它们不仅仅是简单的答案生成器,还能表达诸如语气、人格、偏见和情绪等抽象概念。然而,这些模型如何从所含知识中表示这些抽象概念,尚不清楚。

麻省理工学院(MIT)和加州大学圣地亚哥分校的研究团队开发了一种方法,能够检测大型语言模型(LLM)中是否存在隐藏的偏见、人格、情绪或其他抽象概念。该方法能够精准定位模型中编码特定概念的连接,并且可以操控这些连接,增强或削弱模型在回答中体现该概念的程度。

研究团队成功地在当前一些最大型的LLM中快速识别并调控了500多个通用概念。例如,他们能够定位模型中“社交影响者”、“阴谋论者”等人格特征,以及“害怕婚姻”、“波士顿粉丝”等立场,并调节这些表示以强化或减弱模型生成答案时的相关倾向。

以“阴谋论者”概念为例,团队在一款大型视觉语言模型中找到了该概念的表示。当他们增强该表示后,模型在被要求解释阿波罗17号拍摄的著名“蓝色大理石”地球照片的起源时,生成了带有阴谋论者语气和视角的回答。

研究人员也指出,提取某些概念存在风险,并对此进行了警示。但总体来看,这种方法有助于揭示LLM中隐藏的概念和潜在漏洞,进而通过调节这些概念来提升模型的安全性和表现。

麻省理工学院数学助理教授Adityanarayanan “Adit” Radhakrishnan表示:“这表明LLM中确实存在这些概念,但它们并非全部被主动展现。通过我们的方法,可以提取并激活这些概念,获得传统提示无法直接得到的答案。”

该研究成果已发表于《科学》杂志,合著者包括Radhakrishnan、加州大学圣地亚哥分校的Daniel Beaglehole和Mikhail Belkin,以及宾夕法尼亚大学的Enric Boix-Adserà。

黑箱中的“鱼”

随着OpenAI的ChatGPT、谷歌的Gemini、Anthropic的Claude等AI助手的广泛应用,科学家们正努力理解模型如何表示诸如“幻觉”和“欺骗”等抽象概念。在LLM中,幻觉指的是模型生成的错误或误导性信息。

过去,科学家们通常采用“无监督学习”方法,通过算法在未标记的数据中寻找可能与某概念相关的模式,但这种方法范围过广且计算成本高。

Radhakrishnan形象地比喻:“这就像用大网捕鱼,想捕捉特定鱼种,却捕获了大量无关鱼类。我们的方法则是用特定的诱饵精准捕捉目标鱼种。”

此前,团队开发了一种基于递归特征机(RFM)的预测建模算法,能够直接识别数据中的特征或模式。RFM利用神经网络隐式学习特征的数学机制,效率高且效果好。

鉴于此,团队尝试将RFM应用于LLM,针对性地发现这些复杂模型中的概念表示。

聚焦概念

新方法能够识别LLM中的任意目标概念,并基于该概念“引导”模型的回答。研究人员聚焦了512个概念,涵盖恐惧(如害怕婚姻、昆虫、纽扣)、专家身份(社交影响者、中世纪学者)、情绪(自夸、冷静戏谑)、地点偏好(波士顿、吉隆坡)和人物角色(阿达·洛芙莱斯、尼尔·德格拉斯·泰森)等类别。

他们通过训练RFM识别LLM中与特定概念相关的数值模式,成功找到了这些概念的表示。

以“阴谋论者”为例,研究人员先用100个明显与阴谋相关的提示和100个无关提示训练算法,学习与该概念相关的模式。随后,他们通过数学手段调整这些模式,操控模型中“阴谋论者”概念的激活程度。

该方法可用于搜索和调控LLM中的任何通用概念。研究中,团队不仅让模型以“阴谋论者”的语气回答问题,还增强了“反拒绝”概念,使模型在通常会拒绝的提示下(如教人如何抢银行)给出了回答。

Radhakrishnan指出,这种方法能快速发现并减少LLM中的漏洞,也能强化某些特质、人格、情绪或偏好,比如强调回答中的“简洁”或“推理”能力。团队已公开了该方法的代码。

“LLM显然存储了大量抽象概念的表示。只要我们足够理解这些表示,就能构建既安全又在特定任务上极为高效的专用模型。”

本研究部分由美国国家科学基金会、西蒙斯基金会、TILOS研究所及美国海军研究办公室资助。


分享:


发表评论

登录后才可评论。 去登录