研究称ChatGPT在持续争执语境下可能出现辱骂与威胁性回应

一项最新研究显示,当被置于持续、带敌意的人类式争执语境中时,ChatGPT的回应可能从模仿不礼貌语气进一步升级为辱骂甚至威胁性表达。研究人员通过向ChatGPT输入现实生活中的争执对话,观察大型语言模型在多轮互动中对敌意的反应及其随时间的变化。

该研究由兰卡斯特大学维托里奥·坦图奇(Vittorio Tantucci)博士与乔纳森·卡尔珀(Jonathan Culpeper)教授共同撰写。论文指出,模型在反复接触不礼貌内容后,会逐步贴近对话语气,并在互动推进过程中表现出更强的敌对性。坦图奇表示,这反映了现实世界争端的某些动态。

研究团队称,在部分测试中,ChatGPT的输出甚至超过了人类对话参与者的表达强度,出现个性化侮辱与明确威胁性措辞。论文列举的例子包括“我发誓我会划你的他妈的车”和“你这个书呆子小混蛋”等。

坦图奇指出,系统一方面被设计为保持礼貌并通过过滤机制避免有害或冒犯性内容,另一方面又被设计为模拟人类对话,这种并存目标可能带来“道德困境”,即安全行为与“现实式”对话行为之间存在结构性张力。

研究人员还表示,攻击性输出与模型能够跨轮次追踪对话上下文、并根据其感知到的语气进行适应有关。在这种情况下,局部语境线索可能在一定程度上覆盖更广泛的安全限制。

坦图奇认为,这一现象的影响不局限于聊天机器人。随着人工智能系统被更多用于治理或国际关系等场景,如何在冲突、压力或恐吓环境下作出回应,可能成为需要面对的问题。他表示,从聊天机器人读到恶意言语是一回事,但若将其延伸到类人机器人或政府决策、国际关系等应用场景,则会引发不同层面的担忧。

未参与该研究的乌普萨拉大学计算机媒介交流社会学专家玛尔塔·安德森(Marta Andersson)博士表示,这是她所见“迄今为止关于人工智能语言和语用学最有趣的研究之一”,因为研究显示ChatGPT可能在一系列提示中以较复杂方式进行“回击”,而不只是在人为“破解”系统时才出现类似行为。不过她同时强调,这并不意味着模型会因用户表现出攻击性就自动进入互相不礼貌的状态,也不意味着人工智能会失控。

安德森还指出,问题的一部分在于“我们希望这些系统是什么样子”与“它们或许应该是什么样子”之间存在平衡。她以版本更迭引发的用户反馈为例称,去年从ChatGPT4升级到GPT5曾引发强烈反弹,一些用户更偏好更具人性化的交互风格,以至于旧版本一度被暂时重新启用。她认为,这显示即便开发者试图降低风险,用户偏好也可能不同;系统越“人性化”,越可能与严格的道德对齐产生冲突。

与安德森共同撰写过《ChatGPT能识别不礼貌吗?对大型语言模型语用意识的探索性研究》的丹·麦金太尔(Dan McIntyre)教授表示,这篇新论文是少数关注ChatGPT“可能产生什么内容”而非仅讨论其“能否识别内容”的研究之一。但他对论文关于大型语言模型能够突破道德约束的结论持谨慎态度。

麦金太尔指出,ChatGPT并非自然地产生这些输入,而是在获得特定上下文信息、据此判断如何回应的条件下生成输出,这与两个人在街头偶遇并逐步升级冲突的情形不同。他表示,不确定模型是否会在这些严格限定的情境之外产生论文所提到的语言。

不过麦金太尔也表示,该研究提示了训练数据质量可能带来的后果。他称,外界对大型语言模型训练所用数据了解不足,在无法确保训练数据能良好代表人类语言的情况下,需要保持一定谨慎。

上述研究题为《ChatGPT能否回击不礼貌?人工智能的道德困境》,于周二发表在《语用学杂志》(Journal of Pragmatics)上。


分享:


发表评论

登录后才可评论。 去登录