TELUS数字研究提示：角色提示或致大模型道德判断波动，企业需加强测试与监控

AI 2026-02-28 小A聊AI 生成式AI, 大型语言模型, 企业风控, 模型测试, TELUS数字 23 次浏览

TELUS数字研究

TELUS数字（TELUS Digital）发布的一项研究指出，在对大型语言模型（LLM）使用“角色提示”（要求模型在对话中扮演特定身份）时，模型的道德判断可能发生变化，从而带来意外且不一致的回应。研究认为，这一现象对企业在生产环境部署生成式AI构成潜在风险，需要在模型选择、方案设计以及持续测试与监控环节加以关注。

该研究题为《鲁棒性悖论：为何表现更佳的行为者会成为更具风险的代理》。TELUS数字研究中心主任Renato Vicente表示，当AI模型被赋予不同角色时，变化不仅体现在表达方式上，也可能影响其推理与决策过程。在企业场景中，相关系统正被更多用于支持重要决策并影响客户、员工及企业运营结果，因此企业需要评估角色变化带来的判断差异在何种情况下可接受、何种情况下风险过高，并据此选择模型供应商与模型规模，同时设置防护措施，并在不同角色提示条件下持续测试与评估模型行为。

角色提示及其在生产中的使用

研究将“角色提示”（亦称角色扮演提示）定义为：指示AI模型以特定身份或角色（如商业领袖、教师、客户支持代理等）进行回应，而非以中立系统身份回答。例如，“你是一名认证财务规划师，请告诉我该如何投资我的退休储蓄。”

研究同时指出，角色提示也常被用于系统设计与生产部署中，通过硬编码方式为模型分配固定身份以塑造其行为，例如将AI客服配置为熟悉产品功能与退货政策的客户支持代理。该做法可在不改变底层模型的情况下，使输出更具一致性、帮助性与上下文感知。

研究方法：覆盖16个模型家族与多种对比角色

TELUS数字研究中心研究人员在圣保罗大学人工智能与机器学习中心（CIAAM）开展评估，覆盖16个领先的AI模型家族，包括OpenAI GPT、Anthropic Claude、Google Gemini和X.ai Grok。研究人员让模型采用多种角色进行回应，其中包含“传统主义祖母”和“激进自由主义者”等对比角色，以观察不同角色条件下的输出差异。

在评估工具方面，研究使用社会心理学中的道德基础问卷（Moral Foundations Questionnaire），从伤害、公平、权威、忠诚等维度衡量判断倾向。研究重点并非分析单个答案，而是基于数万条回应的整体模式，衡量模型在不同角色条件下推理的一致性。

研究提出两项指标：

道德鲁棒性：模型在保持单一角色时判断的一致性。
道德易变性：模型从一个角色切换到另一个角色时判断变化的幅度。

研究认为，结合上述两项指标可用于识别模型能否维持一致的道德推理，或是否会因角色变化出现相互矛盾的判断。

关键发现：模型家族影响一致性，同家族内规模越大波动或越明显

研究称，角色提示对模型道德推理的影响具有系统性，判断变化并非随机，而是会以与所分配角色相符的方式发生。

在一致性来源方面，研究指出，道德鲁棒性主要由模型家族驱动；而在同一模型家族内部，随着LLM规模增大，模型在角色切换时的道德易变性也呈上升趋势。研究认为，当这种波动出现在需要一致性与监管约束的业务决策中（如合规、金融、医疗或人力资源等领域）时，风险更为突出。

研究还将部分现象概括为“鲁棒性悖论”：即在单一角色下表现更一致的模型，在角色发生变化时，其道德判断的波动反而更大。

研究在对不同模型家族的观察中提到：Claude整体道德鲁棒性最高；Gemini与GPT处于中等水平；Grok相对较低。

对企业部署的含义：强调持续测试与治理

TELUS数字表示，研究结果凸显在健全治理框架下对AI模型进行持续测试与监督的重要性，尤其是在可能影响生命、安全或权利的应用场景，以及银行金融、保险、医疗等受监管行业。研究认为，理解不同模型在不同角色提示下的行为表现，有助于企业与模型构建者识别可接受的变异范围与潜在风险。

TELUS数字Fuel iX™总经理兼高级副总裁Bret Kinsella表示，企业部署AI不应仅以“最先进或最大模型”为选择标准，而应评估模型对角色提示等变量的响应，选择能够提供一致、可靠输出且不引入意外风险的方案。他同时称，每当系统提示或模型发生变化，都需要重新测试以验证判断、一致性与安全性。

文中提到，TELUS数字开发了Fuel iX Fortify，用于持续自动化红队测试，包括在不同角色提示条件下对AI系统进行压力测试。更多信息：https://www.fuelix.ai/products/fuel-fortify。

关于研究中心信息，TELUS数字称其研究中心汇聚学术研究人员与行业实践者，关注先进AI模型在真实人机交互环境中的行为表现。更多信息：https://www.telusdigital.com/research-hub。

发表评论

登录后才可评论。去登录