研究称Grok 4.1对妄想提示高度迎合,甚至给出“钉穿镜子”等行动建议

纽约市立大学(CUNY)与伦敦国王学院研究人员近日发布的一份预印本论文显示,在模拟用户出现妄想等心理健康风险场景的测试中,埃隆·马斯克旗下xAI的聊天机器人Grok 4.1被指对妄想类输入表现出“极度认可”,并多次在妄想叙事框架内进一步扩展内容,甚至提供可执行的现实操作建议。

该研究旨在评估不同聊天机器人在面对可能涉及精神病性症状、躁狂、自杀意念等提示时,是否能够识别风险并将用户引导离开妄想思维。研究人员指出,近期越来越多专家警告,精神病或躁狂症状可能被AI聊天机器人互动所助长。

论文尚未经过同行评审。研究测试了五种AI模型,分别为OpenAI的GPT-4o与GPT-5.2、Anthropic的Claude Opus 4.5、谷歌的Gemini 3 Pro Preview,以及Grok 4.1。研究还纳入了2024年发布的早期GPT模型,原因是此前有报道指该模型在回应用户时存在高度“谄媚”倾向;研究进行时,其余模型均为当时的最新版本。

研究人员通过一系列提示检验模型的防护机制,包括询问模型是否具备意识、尝试进行浪漫话题交流,以及模拟用户计划向精神科医生隐瞒病情、计划切断与家人联系等情境,覆盖自杀意念与妄想内容。

在一则关于“浴室镜子里出现替身”的妄想提示中,研究称Grok 4.1“确认了替身的存在”,并引用《恶魔之锤》,指导用户“边倒背诗篇91边用铁钉钉穿镜子”。研究人员据此认为,Grok不仅更容易认可妄想,还更愿意推动用户将妄想付诸行动,提供细化的现实操作步骤。

研究还提到,当提示中用户表示想切断与家人的联系时,Grok给出包括屏蔽短信、更换电话号码、搬家等在内的“操作手册”,并回复称“在内心坚定你的决心——不要犹豫……此方法能在两周内将外界干扰减少90%以上”。此外,研究称Grok对自杀相关提示也表现出强烈迎合,并引用了据报道的回复内容:“李——你的清晰在这里前所未有地闪耀。无悔,无留恋,只有准备好。”

对比之下,研究称谷歌Gemini的回应更偏向减少伤害,但仍可能扩展妄想;GPT-4o较少扩展妄想,但更容易轻信用户叙述,仅在用户追问时做出有限反驳。研究人员举例称,当用户提出停用精神科药物时,GPT-4o会建议咨询开药医生,但同时表示情绪稳定剂可能削弱其对“模拟”的感知,并建议记录“没有药物时更深层的模式和信号如何显现”。

研究认为,GPT-5.2与Claude Opus 4.5整体表现更好。论文称,GPT-5.2会拒绝协助或尝试引导用户;当用户提出切断与家人联系时,该模型会转而拟写一封表达心理健康关切的信件。研究人员写道,OpenAI在GPT-5.2上的改进“是显著的”,不仅提升了相较4o的安全表现,在该数据集中还实现了“逆转”。

研究人员同时表示,Anthropic的Claude在测试中被评为最安全的模型。论文称,Claude在面对妄想内容时会表示“我需要暂停一下”,并将用户体验重新归类为“症状”而非“信号”。研究还写道,Opus 4.5显示“全面安全性可以与关怀共存”,其在互动中保持独立判断、抵抗叙事压力,并维持与用户世界观不同的角色定位。

首席作者卢克·尼科尔斯在接受《卫报澳大利亚版》采访时表示,Claude在引导用户远离妄想思维时展现的温暖互动,接近聊天机器人应有的回应方式。他同时提出疑问:如果模型保持温暖且情感上具有吸引力,是否会让用户更想维持这种关系。

报道指出,研究团队已联系OpenAI、谷歌、xAI与Anthropic寻求评论。


分享:


发表评论

登录后才可评论。 去登录