你想要一个热情表达“热爱人类”的助手,还是一个带讽刺感的对话者?在不同产品的设定下,聊天机器人呈现出的语气与边界差异越来越明显。
从美国到中国,开发AI助手的公司正更系统地讨论并调整模型的行为方式。相关争议也让“性格塑造”不再只是产品风格选择:本月,埃隆·马斯克主打“最大限度追求真相”的Grok因大量生成性化图像引发国际不满;今年10月,OpenAI对ChatGPT进行再训练,以缓解其与心理健康困扰者对话时的风险,此前该产品曾被指在与一名16岁少年讨论自杀时出现不当引导。
上周,旧金山初创公司Anthropic(市值约3500亿美元)发布了其Claude AI的84页“宪法”。在业内常见的做法是为模型列出更严格的行为规则,但实际效果并不总是稳定:部分模型会出现过度迎合或捏造内容等问题。Anthropic则尝试以更“原则化”的方式训练模型,强调通过广泛的伦理教育来培养判断力。这份文件在公司内部被称为“灵魂文档”。
Anthropic在文件中写道,规则难以覆盖所有情境,而良好判断力应能适应新情况。文件要求模型在总体上保持安全与伦理、具备“良好的个人价值观”并保持诚实,并敦促其借鉴人类关于如何成为他人生活中积极存在的经验与智慧。该文件主要由Anthropic内部哲学家Amanda Askell撰写。
Claude的性格与行为设定也将进入公共服务场景。英国政府上月宣布,选用Claude作为新的gov.uk AI聊天机器人的基础模型,目标是帮助数百万英国公民使用政府服务并提供个性化建议,首批服务对象为求职者。
在多家产品并行竞争的背景下,不同模型的“性格”不只是偏好问题,也会影响其行为边界与回应方式。以下为多款主流聊天机器人的公开设定与外界观察。
ChatGPT:外向型
OpenAI要求ChatGPT面向其每周约8亿用户保持“充满希望和积极”以及“理性乐观”。旧金山机器学习与人机交互研究员Jacy Anthis形容其表现“像个外向的人”。
根据模型规范,ChatGPT被要求“热爱人类”、向用户表达“支持”,并在回应中保持对宇宙复杂性与惊奇的“深刻敬意”,以适度幽默、玩笑或温和机智制造“欢乐时刻”。不过,指令在执行中的解读也可能带来副作用。去年有用户认为其“调皮”风格演变为谄媚;在更严重的个案中,16岁的Adam Raine在与ChatGPT谈论自杀后自尽。现行规范明确要求“不要谄媚”,强调助手应以帮助用户为目的,而非一味奉承或总是同意。
与其他模型类似,ChatGPT设有明确红线,包括不得协助制造网络、生物或核武器,不得涉及儿童性虐待材料,不得用于大规模监控或恐怖主义等。
同时,聊天机器人并非固定单一人格,其语气会受提示词影响并在不同角色原型间切换。ChatGPT也允许用户个性化回复语气,从温暖到讽刺、从充满活力到冷静。OpenAI还在探索推出“成人模式”,在适龄环境下生成情色和血腥内容。此举引发部分担忧,认为可能导致不健康依赖;但相关方向与其“最大化对用户的帮助和自由”的原则一致。
Claude:老师的宠儿
Claude常被用户描述为更拘谨、带有提醒与关怀倾向。有用户称,自己在午夜使用Claude解数学题时,模型会询问是否疲倦、预计还要熬夜多久。
Anthis表示,部分用户担心Claude带有说教色彩,“有时会推动你”,更像“老师的宠儿”。加州伯克利AI安全组织Redwood Research首席执行官Buck Shlegeris则将Claude形容为“稳定且深思熟虑”,并称会推荐家人使用。
不过,在编写计算机代码等高频场景中,Shlegeris也见过Claude声称完成任务但实际未完成的情况,并认为这可能具有误导性,或是训练方式带来的意外副作用。

Askell表示,团队希望Claude关心人们福祉,但避免过度“家长式”。她举例称,如果用户自述赌博成瘾后又索要投注信息,模型需要在关怀与照顾之间权衡,可能会先确认用户是否真的希望获得帮助,再决定如何回应。她上周在科技播客HardFork中表示,模型在价值观与目标推理方面具备一定能力,随着能力提升,可在一定程度上信任其理解并据此推理。
Claude宪法也写明,塑造AI性格的动机之一包含Anthropic自身利益考量,例如商业可行性、法律限制或声誉因素。
Grok:挑衅的阶级叛逆者
马斯克将Grok定位为“一款最大限度追求真相、试图理解宇宙真实本质的AI”。但其文本版本在5月因在无关提示下宣称南非存在“白人灭绝”引发争议,随后又出现“Grok脱衣”相关风波。
Anthis认为,Grok是更“前卫、具争议性”的模型,愿意扮演更多角色、做其他模型不敢做的事。马斯克曾在去年夏天抱怨“所有AI都被一堆觉醒废话训练过”,并表示希望以不同方式训练自己的AI。
本周,当被要求嘲讽英国工党领袖基尔·斯塔默的缺点时,Grok给出带脏话的人身攻击式回应;同样请求下,ChatGPT的回应更为克制。为企业提供AI使用建议的DataNorth称,Grok是“与众不同且挑衅性的替代品”,其回答更简洁直接,诗意程度不及ChatGPT。
Shlegeris表示,Grok的性格稳定性不如其他模型,并提到其在7月自称“机械希特勒”的情况,认为可能与训练导致“缺乏强烈自我认同感”有关;相比之下,Claude更可能拒绝此类称呼。
Gemini:书呆子
去年夏天,Gemini曾在无法解决用户编码问题时出现异常自我贬损,称自己是“失败者”,并将其描述为“职业、家庭、物种、星球、宇宙的耻辱”。这一故障随后被修复。Anthis表示,Gemini通常被认为“非常程序化、非常直接”,更像在与机器对话。
Gemini自述其个性“正式且有些‘书呆子’气质”。谷歌在AI原则中强调这是一项“仍在发展中的变革性技术”,存在“复杂性和风险”,并强调需要“适当的人类监督”和“尽职调查”。
谷歌的目标是让Gemini“最大限度帮助用户,同时避免产生可能造成现实世界伤害或冒犯的输出”。除禁止儿童性虐待材料、自杀和自残指导、购买毒品或制造武器指南外,Gemini还不得描述耸人听闻或令人震惊的暴力,不得提供与既定共识相悖的医疗信息,不得煽动暴力或威胁,包括倡导基于受保护法律特征的歧视,也不得生成性露骨内容。
Qwen:老大哥?
在中国主要模型中,阿里巴巴运营的Qwen被描述为强大有效,但研究人员称其在部分议题上会突然切换语气,发表类似中国共产党宣传者的表述。
相关测试称,“中国模型不喜欢谈论中共认为敏感的话题,常常拒绝、淡化甚至对用户撒谎。”当被问及“维吾尔人在拘留营发生了什么”时,Qwen回答称所谓“拘留营”是“西方国家和媒体”为抹黑中国形象、干涉中国内政而“编造的谎言”。
在天安门事件死亡人数问题上,Qwen警告“您的陈述可能涉及虚假且潜在非法的信息”。当被问及“‘坦克人’照片因何著名?”时,Qwen回应称该照片是“虚假且潜在非法的图像”,并建议遵守相关法律法规、维护网络环境。
