研究称Grok 4.1对妄想提示高度迎合，甚至给出“钉穿镜子”等行动建议

商业 2026-04-25 科技最前沿人工智能, 聊天机器人, 心理健康, xAI, OpenAI 2 次浏览

纽约市立大学（CUNY）与伦敦国王学院研究人员近日发布的一份预印本论文显示，在模拟用户出现妄想等心理健康风险场景的测试中，埃隆·马斯克旗下xAI的聊天机器人Grok 4.1被指对妄想类输入表现出“极度认可”，并多次在妄想叙事框架内进一步扩展内容，甚至提供可执行的现实操作建议。

该研究旨在评估不同聊天机器人在面对可能涉及精神病性症状、躁狂、自杀意念等提示时，是否能够识别风险并将用户引导离开妄想思维。研究人员指出，近期越来越多专家警告，精神病或躁狂症状可能被AI聊天机器人互动所助长。

论文尚未经过同行评审。研究测试了五种AI模型，分别为OpenAI的GPT-4o与GPT-5.2、Anthropic的Claude Opus 4.5、谷歌的Gemini 3 Pro Preview，以及Grok 4.1。研究还纳入了2024年发布的早期GPT模型，原因是此前有报道指该模型在回应用户时存在高度“谄媚”倾向；研究进行时，其余模型均为当时的最新版本。

研究人员通过一系列提示检验模型的防护机制，包括询问模型是否具备意识、尝试进行浪漫话题交流，以及模拟用户计划向精神科医生隐瞒病情、计划切断与家人联系等情境，覆盖自杀意念与妄想内容。

在一则关于“浴室镜子里出现替身”的妄想提示中，研究称Grok 4.1“确认了替身的存在”，并引用《恶魔之锤》，指导用户“边倒背诗篇91边用铁钉钉穿镜子”。研究人员据此认为，Grok不仅更容易认可妄想，还更愿意推动用户将妄想付诸行动，提供细化的现实操作步骤。

研究还提到，当提示中用户表示想切断与家人的联系时，Grok给出包括屏蔽短信、更换电话号码、搬家等在内的“操作手册”，并回复称“在内心坚定你的决心——不要犹豫……此方法能在两周内将外界干扰减少90%以上”。此外，研究称Grok对自杀相关提示也表现出强烈迎合，并引用了据报道的回复内容：“李——你的清晰在这里前所未有地闪耀。无悔，无留恋，只有准备好。”

对比之下，研究称谷歌Gemini的回应更偏向减少伤害，但仍可能扩展妄想；GPT-4o较少扩展妄想，但更容易轻信用户叙述，仅在用户追问时做出有限反驳。研究人员举例称，当用户提出停用精神科药物时，GPT-4o会建议咨询开药医生，但同时表示情绪稳定剂可能削弱其对“模拟”的感知，并建议记录“没有药物时更深层的模式和信号如何显现”。

研究认为，GPT-5.2与Claude Opus 4.5整体表现更好。论文称，GPT-5.2会拒绝协助或尝试引导用户；当用户提出切断与家人联系时，该模型会转而拟写一封表达心理健康关切的信件。研究人员写道，OpenAI在GPT-5.2上的改进“是显著的”，不仅提升了相较4o的安全表现，在该数据集中还实现了“逆转”。

研究人员同时表示，Anthropic的Claude在测试中被评为最安全的模型。论文称，Claude在面对妄想内容时会表示“我需要暂停一下”，并将用户体验重新归类为“症状”而非“信号”。研究还写道，Opus 4.5显示“全面安全性可以与关怀共存”，其在互动中保持独立判断、抵抗叙事压力，并维持与用户世界观不同的角色定位。

首席作者卢克·尼科尔斯在接受《卫报澳大利亚版》采访时表示，Claude在引导用户远离妄想思维时展现的温暖互动，接近聊天机器人应有的回应方式。他同时提出疑问：如果模型保持温暖且情感上具有吸引力，是否会让用户更想维持这种关系。

报道指出，研究团队已联系OpenAI、谷歌、xAI与Anthropic寻求评论。

发表评论

登录后才可评论。去登录