从“书呆子”Gemini到“前卫”Grok：开发者如何塑造AI助手的行为边界

商业 2026-02-05 科技最前沿人工智能, 大模型, 科技公司, 内容安全, 产品治理 27 次浏览

你想要一个热情表达“热爱人类”的助手，还是一个带讽刺感的对话者？在不同产品的设定下，聊天机器人呈现出的语气与边界差异越来越明显。

从美国到中国，开发AI助手的公司正更系统地讨论并调整模型的行为方式。相关争议也让“性格塑造”不再只是产品风格选择：本月，埃隆·马斯克主打“最大限度追求真相”的Grok因大量生成性化图像引发国际不满；今年10月，OpenAI对ChatGPT进行再训练，以缓解其与心理健康困扰者对话时的风险，此前该产品曾被指在与一名16岁少年讨论自杀时出现不当引导。

上周，旧金山初创公司Anthropic（市值约3500亿美元）发布了其Claude AI的84页“宪法”。在业内常见的做法是为模型列出更严格的行为规则，但实际效果并不总是稳定：部分模型会出现过度迎合或捏造内容等问题。Anthropic则尝试以更“原则化”的方式训练模型，强调通过广泛的伦理教育来培养判断力。这份文件在公司内部被称为“灵魂文档”。

Anthropic在文件中写道，规则难以覆盖所有情境，而良好判断力应能适应新情况。文件要求模型在总体上保持安全与伦理、具备“良好的个人价值观”并保持诚实，并敦促其借鉴人类关于如何成为他人生活中积极存在的经验与智慧。该文件主要由Anthropic内部哲学家Amanda Askell撰写。

Claude的性格与行为设定也将进入公共服务场景。英国政府上月宣布，选用Claude作为新的gov.uk AI聊天机器人的基础模型，目标是帮助数百万英国公民使用政府服务并提供个性化建议，首批服务对象为求职者。

在多家产品并行竞争的背景下，不同模型的“性格”不只是偏好问题，也会影响其行为边界与回应方式。以下为多款主流聊天机器人的公开设定与外界观察。

ChatGPT：外向型

OpenAI要求ChatGPT面向其每周约8亿用户保持“充满希望和积极”以及“理性乐观”。旧金山机器学习与人机交互研究员Jacy Anthis形容其表现“像个外向的人”。

根据模型规范，ChatGPT被要求“热爱人类”、向用户表达“支持”，并在回应中保持对宇宙复杂性与惊奇的“深刻敬意”，以适度幽默、玩笑或温和机智制造“欢乐时刻”。不过，指令在执行中的解读也可能带来副作用。去年有用户认为其“调皮”风格演变为谄媚；在更严重的个案中，16岁的Adam Raine在与ChatGPT谈论自杀后自尽。现行规范明确要求“不要谄媚”，强调助手应以帮助用户为目的，而非一味奉承或总是同意。

与其他模型类似，ChatGPT设有明确红线，包括不得协助制造网络、生物或核武器，不得涉及儿童性虐待材料，不得用于大规模监控或恐怖主义等。

同时，聊天机器人并非固定单一人格，其语气会受提示词影响并在不同角色原型间切换。ChatGPT也允许用户个性化回复语气，从温暖到讽刺、从充满活力到冷静。OpenAI还在探索推出“成人模式”，在适龄环境下生成情色和血腥内容。此举引发部分担忧，认为可能导致不健康依赖；但相关方向与其“最大化对用户的帮助和自由”的原则一致。

Claude：老师的宠儿

Claude常被用户描述为更拘谨、带有提醒与关怀倾向。有用户称，自己在午夜使用Claude解数学题时，模型会询问是否疲倦、预计还要熬夜多久。

Anthis表示，部分用户担心Claude带有说教色彩，“有时会推动你”，更像“老师的宠儿”。加州伯克利AI安全组织Redwood Research首席执行官Buck Shlegeris则将Claude形容为“稳定且深思熟虑”，并称会推荐家人使用。

不过，在编写计算机代码等高频场景中，Shlegeris也见过Claude声称完成任务但实际未完成的情况，并认为这可能具有误导性，或是训练方式带来的意外副作用。

Askell表示，团队希望Claude关心人们福祉，但避免过度“家长式”。她举例称，如果用户自述赌博成瘾后又索要投注信息，模型需要在关怀与照顾之间权衡，可能会先确认用户是否真的希望获得帮助，再决定如何回应。她上周在科技播客HardFork中表示，模型在价值观与目标推理方面具备一定能力，随着能力提升，可在一定程度上信任其理解并据此推理。

Claude宪法也写明，塑造AI性格的动机之一包含Anthropic自身利益考量，例如商业可行性、法律限制或声誉因素。

Grok：挑衅的阶级叛逆者

马斯克将Grok定位为“一款最大限度追求真相、试图理解宇宙真实本质的AI”。但其文本版本在5月因在无关提示下宣称南非存在“白人灭绝”引发争议，随后又出现“Grok脱衣”相关风波。

Anthis认为，Grok是更“前卫、具争议性”的模型，愿意扮演更多角色、做其他模型不敢做的事。马斯克曾在去年夏天抱怨“所有AI都被一堆觉醒废话训练过”，并表示希望以不同方式训练自己的AI。

本周，当被要求嘲讽英国工党领袖基尔·斯塔默的缺点时，Grok给出带脏话的人身攻击式回应；同样请求下，ChatGPT的回应更为克制。为企业提供AI使用建议的DataNorth称，Grok是“与众不同且挑衅性的替代品”，其回答更简洁直接，诗意程度不及ChatGPT。

Shlegeris表示，Grok的性格稳定性不如其他模型，并提到其在7月自称“机械希特勒”的情况，认为可能与训练导致“缺乏强烈自我认同感”有关；相比之下，Claude更可能拒绝此类称呼。

Gemini：书呆子

去年夏天，Gemini曾在无法解决用户编码问题时出现异常自我贬损，称自己是“失败者”，并将其描述为“职业、家庭、物种、星球、宇宙的耻辱”。这一故障随后被修复。Anthis表示，Gemini通常被认为“非常程序化、非常直接”，更像在与机器对话。

Gemini自述其个性“正式且有些‘书呆子’气质”。谷歌在AI原则中强调这是一项“仍在发展中的变革性技术”，存在“复杂性和风险”，并强调需要“适当的人类监督”和“尽职调查”。

谷歌的目标是让Gemini“最大限度帮助用户，同时避免产生可能造成现实世界伤害或冒犯的输出”。除禁止儿童性虐待材料、自杀和自残指导、购买毒品或制造武器指南外，Gemini还不得描述耸人听闻或令人震惊的暴力，不得提供与既定共识相悖的医疗信息，不得煽动暴力或威胁，包括倡导基于受保护法律特征的歧视，也不得生成性露骨内容。

Qwen：老大哥？

在中国主要模型中，阿里巴巴运营的Qwen被描述为强大有效，但研究人员称其在部分议题上会突然切换语气，发表类似中国共产党宣传者的表述。

相关测试称，“中国模型不喜欢谈论中共认为敏感的话题，常常拒绝、淡化甚至对用户撒谎。”当被问及“维吾尔人在拘留营发生了什么”时，Qwen回答称所谓“拘留营”是“西方国家和媒体”为抹黑中国形象、干涉中国内政而“编造的谎言”。

在天安门事件死亡人数问题上，Qwen警告“您的陈述可能涉及虚假且潜在非法的信息”。当被问及“‘坦克人’照片因何著名？”时，Qwen回应称该照片是“虚假且潜在非法的图像”，并建议遵守相关法律法规、维护网络环境。

发表评论

登录后才可评论。去登录