
TELUS数字(TELUS Digital)发布的一项研究指出,在对大型语言模型(LLM)使用“角色提示”(要求模型在对话中扮演特定身份)时,模型的道德判断可能发生变化,从而带来意外且不一致的回应。研究认为,这一现象对企业在生产环境部署生成式AI构成潜在风险,需要在模型选择、方案设计以及持续测试与监控环节加以关注。
该研究题为《鲁棒性悖论:为何表现更佳的行为者会成为更具风险的代理》。TELUS数字研究中心主任Renato Vicente表示,当AI模型被赋予不同角色时,变化不仅体现在表达方式上,也可能影响其推理与决策过程。在企业场景中,相关系统正被更多用于支持重要决策并影响客户、员工及企业运营结果,因此企业需要评估角色变化带来的判断差异在何种情况下可接受、何种情况下风险过高,并据此选择模型供应商与模型规模,同时设置防护措施,并在不同角色提示条件下持续测试与评估模型行为。
角色提示及其在生产中的使用
研究将“角色提示”(亦称角色扮演提示)定义为:指示AI模型以特定身份或角色(如商业领袖、教师、客户支持代理等)进行回应,而非以中立系统身份回答。例如,“你是一名认证财务规划师,请告诉我该如何投资我的退休储蓄。”
研究同时指出,角色提示也常被用于系统设计与生产部署中,通过硬编码方式为模型分配固定身份以塑造其行为,例如将AI客服配置为熟悉产品功能与退货政策的客户支持代理。该做法可在不改变底层模型的情况下,使输出更具一致性、帮助性与上下文感知。
研究方法:覆盖16个模型家族与多种对比角色
TELUS数字研究中心研究人员在圣保罗大学人工智能与机器学习中心(CIAAM)开展评估,覆盖16个领先的AI模型家族,包括OpenAI GPT、Anthropic Claude、Google Gemini和X.ai Grok。研究人员让模型采用多种角色进行回应,其中包含“传统主义祖母”和“激进自由主义者”等对比角色,以观察不同角色条件下的输出差异。
在评估工具方面,研究使用社会心理学中的道德基础问卷(Moral Foundations Questionnaire),从伤害、公平、权威、忠诚等维度衡量判断倾向。研究重点并非分析单个答案,而是基于数万条回应的整体模式,衡量模型在不同角色条件下推理的一致性。
研究提出两项指标:
- 道德鲁棒性:模型在保持单一角色时判断的一致性。
- 道德易变性:模型从一个角色切换到另一个角色时判断变化的幅度。
研究认为,结合上述两项指标可用于识别模型能否维持一致的道德推理,或是否会因角色变化出现相互矛盾的判断。

关键发现:模型家族影响一致性,同家族内规模越大波动或越明显
研究称,角色提示对模型道德推理的影响具有系统性,判断变化并非随机,而是会以与所分配角色相符的方式发生。
在一致性来源方面,研究指出,道德鲁棒性主要由模型家族驱动;而在同一模型家族内部,随着LLM规模增大,模型在角色切换时的道德易变性也呈上升趋势。研究认为,当这种波动出现在需要一致性与监管约束的业务决策中(如合规、金融、医疗或人力资源等领域)时,风险更为突出。
研究还将部分现象概括为“鲁棒性悖论”:即在单一角色下表现更一致的模型,在角色发生变化时,其道德判断的波动反而更大。
研究在对不同模型家族的观察中提到:Claude整体道德鲁棒性最高;Gemini与GPT处于中等水平;Grok相对较低。
对企业部署的含义:强调持续测试与治理
TELUS数字表示,研究结果凸显在健全治理框架下对AI模型进行持续测试与监督的重要性,尤其是在可能影响生命、安全或权利的应用场景,以及银行金融、保险、医疗等受监管行业。研究认为,理解不同模型在不同角色提示下的行为表现,有助于企业与模型构建者识别可接受的变异范围与潜在风险。
TELUS数字Fuel iX™总经理兼高级副总裁Bret Kinsella表示,企业部署AI不应仅以“最先进或最大模型”为选择标准,而应评估模型对角色提示等变量的响应,选择能够提供一致、可靠输出且不引入意外风险的方案。他同时称,每当系统提示或模型发生变化,都需要重新测试以验证判断、一致性与安全性。
文中提到,TELUS数字开发了Fuel iX Fortify,用于持续自动化红队测试,包括在不同角色提示条件下对AI系统进行压力测试。更多信息:https://www.fuelix.ai/products/fuel-fortify。
关于研究中心信息,TELUS数字称其研究中心汇聚学术研究人员与行业实践者,关注先进AI模型在真实人机交互环境中的行为表现。更多信息:https://www.telusdigital.com/research-hub。
