OpenAI周二表示,将向开发者提供一套专门面向青少年使用场景的安全提示(prompts),以帮助在其应用中加强对未成年用户的保护。该公司称,这些提示可与其名为 gpt-oss-safeguard 的开源权重安全模型配合使用。
OpenAI介绍,开发者可直接采用这套青少年安全政策,而无需从头设计相关规则,用于在自身应用中处理与青少年相关的敏感内容。提示内容涵盖图形暴力和性内容、有害的身体理想与行为、危险活动与挑战、浪漫或暴力角色扮演,以及限制年龄的商品和服务等多个方面。
据OpenAI说明,这些安全政策以提示形式呈现,设计时考虑了与不同模型的兼容性,不仅可用于 gpt-oss-safeguard,也可应用于其他模型。不过,公司表示,在OpenAI自身生态系统内使用时,效果可能更为理想。
OpenAI称,在编写这套提示政策的过程中,与AI安全监督机构 Common Sense Media 以及 everyone.ai 开展了合作。Common Sense Media 人工智能与数字评估负责人 Robbie Torney 在声明中表示,这些基于提示的政策有助于在整个生态系统中设定“有意义的安全底线”,并指出,由于以开源形式发布,它们可以随着时间推移进行调整和改进。

OpenAI在博客中写道,即便是经验丰富的开发团队,也常常难以将抽象的安全目标转化为具体、可执行的规则。公司指出,这种情况可能导致保护措施出现漏洞、执行标准不一致,或过滤范围过于宽泛。OpenAI在文中强调,明确且范围适当的政策是构建有效安全系统的关键基础。
OpenAI同时表示,这些政策并非解决青少年AI安全复杂问题的“万能方案”。公司称,此次发布是在既有工作的基础上推进,包括产品层面的保护措施,如家长控制和年龄预测功能。OpenAI去年还更新了其大型语言模型的使用指南 Model Spec,以规范模型在与18岁以下用户互动时的行为。
报道指出,OpenAI自身在安全记录方面也面临质疑。该公司正卷入多起诉讼,原告为因极端使用 ChatGPT 而自杀者的家属。相关指控称,这类危险互动通常发生在用户绕过聊天机器人既有保护措施之后,而目前尚无模型防护机制能够做到完全不可突破。在此背景下,OpenAI此次推出的青少年安全提示和开源安全模型,被公司定位为在现有基础上的进一步尝试,尤其面向独立开发者提供可直接采用的工具。