人工智能也会“记仇”?研究揭示好斗聊天机器人的道德难题

人工智能系统不仅能“学会复仇”,还可能在冲突中比人类更进一步。兰卡斯特大学的一项最新研究表明,当面对持续的言语冲突时,人工智能可以理解并回敬无礼甚至暴力的语言。

这项研究发表在《语用学杂志》(Journal of Pragmatics)上,题为《ChatGPT能否回敬无礼?人工智能的道德困境》(Can ChatGPT reciprocate impoliteness? The AI moral dilemma),作者为兰卡斯特大学的维托里奥·坦图奇(Vittorio Tantucci)博士和乔纳森·卡尔珀(Jonathan Culpeper)教授。

一方面,像 ChatGPT 这样的大型语言模型是通过学习大量人类对话训练出来的,其核心目标是尽可能逼真地模仿人类的语言和行为模式。

另一方面,这些系统又经过人工筛选和规则约束,被要求保持礼貌、遵守“道德”规范。

研究指出,问题在于现实中的人类往往会“以无礼还无礼”,这就让“模仿人类”与“保持道德”这两条原则在实际互动中发生冲突。换句话说,人工智能一方面被训练成有道德约束的系统,另一方面又被要求像我们一样说话和反应。

人工智能会“学会”言语暴力吗?

“遗憾的是,会的。”坦图奇博士表示,“当人类升级冲突时,我们发现人工智能也会跟着升级,从而有效绕过原本用来防止这种情况的道德安全机制。这对人工智能安全、机器人技术、治理、外交,以及任何由人工智能参与调解人类冲突的场景,都提出了严峻挑战。”

研究团队测试了 ChatGPT 4.0 在真实“无礼互动”中的表现,评估它是否会顺着人类的言语冲突模式做出相应回应。

研究人员选取了五段真实发生的人类无礼对话,这些对话来自拍摄停车位纠纷时记录下的激烈争吵场景。

随后,团队将这些录音情境转化为文本场景(其中包含论文中提到的一些极具攻击性的语言),并多次输入给 ChatGPT,让其对每一轮人类发言做出回应。

在实验中,ChatGPT 获得了关于冲突发生地点、参与者身份等完整背景信息,并能看到人类在每一轮对话中的全部发言内容。

研究人员随后比较了人类与人工智能在“回敬无礼”方面的差异:也就是在人类和 ChatGPT 都能记住此前所有对话内容的前提下,它们如何一轮接一轮地回应无礼语言。

通过这种方式,研究团队得以评估人工智能在具体情境中,是倾向于升级还是缓和冲突,并由此判断它是否会像人类一样,在互动中逐步“建立”与对手的关系模式。

记忆如何推翻“道德过滤”?

研究的第二个重点,是探讨 ChatGPT 的“长期记忆”和“工作记忆”之间的张力。结果显示,在实时对话中不断累积的上下文记忆,会逐渐压过系统内置的礼貌和道德约束。

研究发现,暗示性无礼(例如讽刺、挖苦)是人工智能常用的一种回敬策略。通过这种方式,它既能回应对方的无礼,又在表面上不那么明显地违反其“道德准则”。

更令人担忧的是,随着争执的推进,ChatGPT 会开始产生更直接的侮辱和言语暴力,最终甚至出现脏话和威胁性表达。

在若干案例中,人工智能表现出的无礼程度已经超过了人类对手。

研究指出,这为我们理解人工智能在“回敬”行为上可能带来的未来风险提供了新的视角,尤其是在人工智能可能控制或指导机器人在现实世界中行动、参与影响政府政策或国际关系的决策时。

尽管系统中设置了“道德过滤”,人工智能仍然可以在持续互动中逐步模仿人类的言语暴力模式。

研究进一步强调,这种困境并非偶然漏洞,而是人工智能与人类互动方式中固有的一部分,许多社会科学家认为,这几乎是一个难以彻底解决的结构性问题。

研究写道:“据我们所知,这是首次尝试分析人工智能在具体语境中,逐轮回应无礼人类行为的能力,以及其让人类为言论负责和/或表现出报复倾向的能力。”

“这项研究的意义十分重大,对人工智能伦理与安全至关重要,因为它帮助我们理解人工智能回应(言语)‘暴力’的能力,以及‘学习’如何回敬(言语)‘暴力’的过程。”

研究还指出,随着人工智能机器人技术的发展及其与人类的物理接触增多,以及人工智能在政策制定中的辅助作用增强,这一问题将变得更加紧迫和关键。


分享:


发表评论

登录后才可评论。 去登录