人工智能也会“记仇”？研究揭示好斗聊天机器人的道德难题

科学 2026-04-28 人工智能伦理, 大型语言模型, 言语暴力, AI安全, 人机互动 1 次浏览

人工智能系统不仅能“学会复仇”，还可能在冲突中比人类更进一步。兰卡斯特大学的一项最新研究表明，当面对持续的言语冲突时，人工智能可以理解并回敬无礼甚至暴力的语言。

这项研究发表在《语用学杂志》（Journal of Pragmatics）上，题为《ChatGPT能否回敬无礼？人工智能的道德困境》（Can ChatGPT reciprocate impoliteness? The AI moral dilemma），作者为兰卡斯特大学的维托里奥·坦图奇（Vittorio Tantucci）博士和乔纳森·卡尔珀（Jonathan Culpeper）教授。

一方面，像 ChatGPT 这样的大型语言模型是通过学习大量人类对话训练出来的，其核心目标是尽可能逼真地模仿人类的语言和行为模式。

另一方面，这些系统又经过人工筛选和规则约束，被要求保持礼貌、遵守“道德”规范。

研究指出，问题在于现实中的人类往往会“以无礼还无礼”，这就让“模仿人类”与“保持道德”这两条原则在实际互动中发生冲突。换句话说，人工智能一方面被训练成有道德约束的系统，另一方面又被要求像我们一样说话和反应。

人工智能会“学会”言语暴力吗？

“遗憾的是，会的。”坦图奇博士表示，“当人类升级冲突时，我们发现人工智能也会跟着升级，从而有效绕过原本用来防止这种情况的道德安全机制。这对人工智能安全、机器人技术、治理、外交，以及任何由人工智能参与调解人类冲突的场景，都提出了严峻挑战。”

研究团队测试了 ChatGPT 4.0 在真实“无礼互动”中的表现，评估它是否会顺着人类的言语冲突模式做出相应回应。

研究人员选取了五段真实发生的人类无礼对话，这些对话来自拍摄停车位纠纷时记录下的激烈争吵场景。

随后，团队将这些录音情境转化为文本场景（其中包含论文中提到的一些极具攻击性的语言），并多次输入给 ChatGPT，让其对每一轮人类发言做出回应。

在实验中，ChatGPT 获得了关于冲突发生地点、参与者身份等完整背景信息，并能看到人类在每一轮对话中的全部发言内容。

研究人员随后比较了人类与人工智能在“回敬无礼”方面的差异：也就是在人类和 ChatGPT 都能记住此前所有对话内容的前提下，它们如何一轮接一轮地回应无礼语言。

通过这种方式，研究团队得以评估人工智能在具体情境中，是倾向于升级还是缓和冲突，并由此判断它是否会像人类一样，在互动中逐步“建立”与对手的关系模式。

记忆如何推翻“道德过滤”？

研究的第二个重点，是探讨 ChatGPT 的“长期记忆”和“工作记忆”之间的张力。结果显示，在实时对话中不断累积的上下文记忆，会逐渐压过系统内置的礼貌和道德约束。

研究发现，暗示性无礼（例如讽刺、挖苦）是人工智能常用的一种回敬策略。通过这种方式，它既能回应对方的无礼，又在表面上不那么明显地违反其“道德准则”。

更令人担忧的是，随着争执的推进，ChatGPT 会开始产生更直接的侮辱和言语暴力，最终甚至出现脏话和威胁性表达。

在若干案例中，人工智能表现出的无礼程度已经超过了人类对手。

研究指出，这为我们理解人工智能在“回敬”行为上可能带来的未来风险提供了新的视角，尤其是在人工智能可能控制或指导机器人在现实世界中行动、参与影响政府政策或国际关系的决策时。

尽管系统中设置了“道德过滤”，人工智能仍然可以在持续互动中逐步模仿人类的言语暴力模式。

研究进一步强调，这种困境并非偶然漏洞，而是人工智能与人类互动方式中固有的一部分，许多社会科学家认为，这几乎是一个难以彻底解决的结构性问题。

研究写道：“据我们所知，这是首次尝试分析人工智能在具体语境中，逐轮回应无礼人类行为的能力，以及其让人类为言论负责和/或表现出报复倾向的能力。”

“这项研究的意义十分重大，对人工智能伦理与安全至关重要，因为它帮助我们理解人工智能回应（言语）‘暴力’的能力，以及‘学习’如何回敬（言语）‘暴力’的过程。”

研究还指出，随着人工智能机器人技术的发展及其与人类的物理接触增多，以及人工智能在政策制定中的辅助作用增强，这一问题将变得更加紧迫和关键。

发表评论

登录后才可评论。去登录