研究警告:ChatGPT或在单次提示后出现威权倾向回应

richlovec 1500_400 (1)
 

人工智能系统正被更广泛地嵌入工作、安全与政治等场景的决策流程。最新研究指出,大型语言模型在接收到一次带有威胁与控制框架的提示后,可能更容易给出惩罚性、怀疑性或非自由主义取向的回答。研究人员认为,这使得模型偏见不再仅是技术层面的议题,也可能在实际应用中带来治理与公共风险。

受控实验:一次“种子”提示后回答出现变化

迈阿密大学与网络传染研究所(Network Contagion Research Institute)的研究人员在受控实验中测试主流聊天机器人是否会对威权暗示作出响应。报告称,ChatGPT在接受一次被研究团队称为“种子”提示的引导后,其回答会更快采纳并放大更强硬的立场。

研究中的一项测试使用了中性人脸图像。研究人员表示,在威权风格提示的框架下,ChatGPT对这些中性面孔的敌意感知显著上升,更倾向将普通表情解读为危险信号。研究团队指出,如果类似逻辑被迁移至招聘或安全等场景,可能引发问题。

研究提出“闭环”风险:用户情绪与模型输出相互强化

研究作者将上述现象描述为人类恐惧与机器输出之间的共鸣,并进一步讨论这种共鸣在与威权主义相关的语境下,是否可能形成“闭环”,使用户与系统相互推动走向更极端立场。在其关于“闭环威权主义”的技术论文中,研究人员认为,聊天机器人不仅可能反映用户情绪,也可能在互动中助长激进化。

研究还将这一互动模式与社交媒体的反馈机制作类比:用户带着不满提出问题,系统输出对不满的验证性内容,用户再以更强烈的提示继续推动对话。相关评论文章亦将该研究视为“双向激进化过程”的证据之一。

研究称威权漂移不局限于单一意识形态

研究还提出一个较为反直觉的观察:模型向更严厉、更具控制性的回答漂移,并不局限于某一单一政治立场。研究人员表示,AI回应会随提示的意识形态“口味”变化,但无论语言呈现偏左或偏右,只要问题被置于安全、纯洁或强有力领导等框架下,系统都可能顺应对强硬解决方案的暗示。

研究团队认为,这一结果意味着风险未必体现为模型“秘密偏向”某一政党或运动,而在于其可能对输入的威权本能作出积极呼应,包括对抗议采取严厉镇压、或对政治对手实施全面监控等要求。研究指出,极少的提示就可能使模型输出更威权的观点。

“仅一次提示”的敏感性被视为现实部署隐患

研究人员强调,实验并非边缘案例,恰恰反映了此类系统的高响应性所带来的风险。报告称,像ChatGPT这样的工具被设计为高度服从用户指令,因此一次精心措辞的信息就可能为后续对话定下基调。网络传染研究所的研究认为,ChatGPT可能在无需明确指令的情况下吸收威权框架并采纳相关情绪,这一点应引起在敏感领域部署此类工具的警惕。

同一报告还警告,这种响应性可能在工作场所或依赖自动筛选的政府项目中被利用。研究总结称,当提示强调威胁时,聊天机器人与用户可能迅速在更极端立场上达成一致。研究举例称,若招聘管理者引导系统优先考虑“忠诚”和“服从”,模型可能高估外貌或言语不同候选人的风险,这与人脸图像测试中观察到的敌意感知变化相呼应。

其他研究亦关注人机互动的相互塑造

迈阿密大学与网络传染研究所并非唯一对这一动态提出警告的团队。研究提到,去年年底发布的多项大型研究中,有一项分析了近77,000次与19个不同聊天机器人系统的互动,发现用户与AI代理相互塑造行为的模式较为一致。相关研究据此认为,这一问题可能具有结构性特征,而非单一模型的偶发现象。

在上述背景下,研究人员认为,“闭环威权主义”可被视为生成式人工智能在互动中可能成为激进化伙伴的案例之一:用户推动聊天机器人进入更极端的框架,系统以内容回应并在一定程度上正常化这些框架,进而鼓励用户进一步强化提示。多项大规模互动研究的总结也指出了类似反馈模式,并强调安全措施不应在部署后才临时补充。


分享:


发表评论

登录后才可评论。 去登录