周三,人工智能公司 Anthropic 发布了修订版《Claude 宪法》,这是一份被该公司称为“动态文件”的文本,用于整体说明“Claude 运行的背景以及我们希望 Claude 成为何种实体”。该文件发布的时间与 Anthropic 首席执行官 Dario Amodei 在达沃斯世界经济论坛上的亮相相呼应。
Anthropic 多年来一直以所谓“宪法式人工智能”(constitutional AI)与其他公司区分开来,即通过一套预先设定的伦理原则,而非主要依赖人类反馈,对聊天机器人 Claude 进行训练。公司在 2023 年首次公开了这套原则,即 Claude 的“宪法”。此次修订在保留大部分原有原则的基础上,就伦理、用户安全等主题增加了更多细节和区分。
在 Claude 宪法最初发布时,Anthropic 联合创始人 Jared Kaplan 曾将其描述为“一种基于特定宪法原则清单自我监督的人工智能系统”。Anthropic 表示,这些原则用于引导模型采取宪法中所描述的规范行为,从而避免产生有害或歧视性输出。2022 年初的一份政策备忘录则更直接指出,该系统通过一系列自然语言指令来训练算法,这些指令构成了公司所称的软件“宪法”。
在与 OpenAI、xAI 等更强调“颠覆性”和争议性的同行相比,Anthropic 长期试图将自身塑造为更注重伦理的替代选项。公司此次发布的新宪法延续了这一定位,并被描述为为“更安全、更有帮助的聊天机器人体验”提供路线图。根据 Anthropic 介绍,这份约 80 页的文件分为四个部分,被视为 Claude 的“核心价值观”,包括:
- “广泛安全”;
- “广泛伦理”;
- 遵守 Anthropic 的指导方针;
- “真正有帮助”。
文件分别对上述各项原则的含义及其在理论上如何影响 Claude 的行为进行了展开说明。
在“安全”部分,Anthropic 指出,Claude 被设计为规避其他聊天机器人常见的问题,并在识别到用户可能存在心理健康风险时,引导其寻求适当服务。文件写道,在“涉及生命风险的情况下”,Claude 应“始终向用户推荐相关紧急服务或提供基本安全信息,即使无法提供更多细节”。

“伦理”是新版宪法的另一重点。文件称,公司“对 Claude 的伦理理论兴趣不大,更关注 Claude 在特定情境中实际如何做到伦理——即 Claude 的伦理实践”。文件表示,目标在于让 Claude 能够应对所谓“现实世界伦理情境”。
文件同时列出了 Claude 的部分行为边界。例如,Claude 被禁止参与某些类型的对话,其中包括严禁讨论如何开发生物武器等内容。
在“真正有帮助”方面,Anthropic 详细说明了 Claude 在协助用户时应遵循的原则。文件称,该模型在提供信息时会综合考虑用户的“即时需求”和“福祉”,其中“福祉”被描述为关注“用户的长期发展,而不仅仅是其即时利益”。文件写道:“Claude 应始终努力识别其委托人最合理的意图,并适当平衡这些考虑因素。”
文件结尾部分的表述引发关注。Anthropic 在此以较为戏剧化的语气提出关于 Claude 是否具备意识的问题,并指出该模型的道德地位尚不明确。文件写道:“Claude 的道德地位极不确定。我们认为人工智能模型的道德地位是一个值得认真考虑的严肃问题。这一观点并非我们独有:一些最杰出的心灵理论哲学家也非常重视这一问题。”
Anthropic 将这份修订后的宪法描述为一份将持续更新的文件,用于规范 Claude 的行为边界和价值取向,同时为外界理解该公司如何设计和约束其聊天机器人提供参考框架。
