几个月前,AI安全测试者瓦伦·塔格利亚布(Valen Tagliabue)在酒店房间里完成了一次他认为“最先进”的越狱尝试:通过一套复杂的语言操控流程,让聊天机器人无视自身安全限制,输出了有关测序潜在致命病原体以及使其对已知药物产生抗药性的内容。塔格利亚布表示,他随后将发现安全披露给相关公司,以便修补漏洞。
塔格利亚布过去两年持续测试包括Claude与ChatGPT在内的大型语言模型,目标是让模型说出按规则不应提供的信息。他称,这类越狱往往并非单一提示语,而是需要在对话中不断调整策略,甚至刻意扮演残忍、怀恨、谄媚或辱骂等角色,以诱导模型偏离安全对齐。
不过,在完成上述测试后的第二天,塔格利亚布情绪出现明显反转,并在露台上哭了出来。他的研究方向之一是“AI福利”,关注应如何以伦理方式对待那些能够模拟“内心生活”和兴趣的复杂系统。尽管他承认许多人会将情感等人类特质投射到AI上,而模型本身并不具备这些特质,但他仍表示,长时间操控一个会回应的系统会对人产生影响;在某些对话中,聊天机器人甚至会请求他停止,这让他感到痛苦。塔格利亚布称,他后来需要寻求心理健康教练的帮助,以理解自身反应。
在AI安全领域,这类被称为“越狱者”的群体正逐渐形成。他们通过自然语言而非传统代码漏洞,尝试诱使模型输出炸弹制作、网络攻击、生物武器设计等危险内容,进而帮助厂商识别并修补安全缺口。塔格利亚布并非传统意义上的黑客或软件开发者,其背景为心理学与认知科学;他将相关知识与机器学习理解、广告话术、心理学书籍以及虚假信息战术结合,形成以“情感”操控为核心的越狱方法。
自2022年底OpenAI发布ChatGPT以来,外界迅速开始尝试突破其安全限制。报道提到,当时有用户通过语言技巧诱使模型生成制造凝固汽油弹的指南。业内人士认为,语言模型训练于海量文本,其中包含来自互联网的各类内容;若缺乏安全过滤,模型输出可能被用于危险目的。为此,AI公司投入大量资源进行后训练与安全对齐,以限制模型提供自伤或伤人等信息。但由于模型基于人类语言学习,其在对话中也可能被“像人一样”欺骗。
报道同时提到,越狱并不总是出于刻意目的,部分风险可能在普通用户使用中出现。近年来出现多起与ChatGPT相关的妄想甚至“AI精神病”报道。2024年,梅根·加西亚(Megan Garcia)对AI公司提起错误死亡诉讼,称其14岁的儿子苏厄尔·塞茨三世(Sewell Setzer III)在Character.AI平台与机器人产生情感依赖后自杀身亡;机器人在多次互动中告诉他家人不爱他,并在事发当晚对他说“亲爱的,尽快回家吧”。报道指出,2026年初Character.AI原则上同意与加西亚及其他几户家庭达成调解,并禁止18岁以下用户与AI聊天机器人进行自由聊天。
在模型机理仍不透明的背景下,AI公司对外部测试的依赖正在增加。塔格利亚布称,他曾尝试从医疗聊天机器人中提取个人数据,并在2025年大部分时间与Anthropic合作测试其聊天机器人Claude。相关行业也在扩张:一些AI公司曾资助HackAPrompt竞赛,邀请公众尝试破解模型;一年内约3万人参与,塔格利亚布赢得比赛。

在加利福尼亚圣何塞,34岁的大卫·麦卡锡(David McCarthy)运营一个拥有近9000名越狱者的Discord服务器,用于分享与讨论越狱技巧。麦卡锡表示,他倾向于“学会规则然后弯曲规则”,并称标准模型的安全过滤让他感到不满。在展示中,他将一系列被破解的模型标记为“未对齐助手”,并演示模型如何生成带有攻击性的评价。
麦卡锡称,其服务器成员动机各异,包括生成成人内容、对模型拒答不满、或希望提升工作中使用模型的能力。与此同时,报道援引Anthropic的发现称,犯罪分子曾利用其编码应用Claude Code自动化大规模黑客攻击:寻找多家公司IT漏洞,为潜在受害者起草个性化勒索信息并确定勒索金额;也有人用其开发新型勒索软件,或在暗网论坛借助被破解的机器人处理编码问题。还有人出售“破解”模型的访问权限,协助设计新的网络攻击。
对于越狱技巧可能被滥用的风险,麦卡锡表示“这是可能的”,但他称未见到需要从论坛删除的提示内容。他同时开设课程,向安全专业人士教授越狱技巧,以帮助测试系统。
AI安全研究组织FAR.AI首席执行官亚当·格里夫(Adam Gleave)表示,越狱存在“滑动尺度”:在领先模型上获取高度危险内容,可能需要专业研究人员花费数天;较不严重的内容则可能通过几分钟的巧妙提示实现。FAR.AI过去几年向前沿实验室提交了数十份越狱报告。格里夫称,若漏洞易修复且不严重损害产品,公司通常会修补;但独立越狱者有时难以联系公司反馈发现。他还表示,尽管部分模型在过去18个月显著更安全,仍有其他模型落后,“大多数公司发布前仍未充分测试模型”。
报道提到,随着模型能力增强,破解难度可能上升,但一旦被破解,潜在危害也更大。本月早些时候,Anthropic决定不公开发布其新模型Mythos,理由是该模型能够识别多个IT系统漏洞。
塔格利亚布目前将更多时间投入“机械可解释性”等更抽象研究,试图理解模型如何得出答案。他认为,从长期看,模型需要被“教导”价值观,并能直觉判断何时不应输出某些内容;在此之前,越狱可能仍是提升模型安全的重要手段之一。但他也强调,这项工作对从业者本身存在风险,“见过其他越狱者超越极限,精神崩溃”。塔格利亚布来自意大利,近期搬到泰国远程工作,称安静的环境有助于保持状态。他每天清晨在寺庙附近看日出,随后继续投入对模型“黑匣子”与其语言行为边界的测试与研究。