刁钻提问测试6款主流聊天机器人:均出现“幻觉”并给出自信回答

richlovec 1500_400 (1)
 

多款主流聊天机器人在面对特定、细节化问题时被观察到出现“幻觉”现象:在缺乏事实依据的情况下生成看似权威的答案,并以较高确定性表述。根据一组针对六款产品的测试与公开研究/报道案例,这些系统分别在法律、科学、政治与历史等领域编造或误述信息,包括虚构法院判例、错误描述天文里程碑、捏造政治人物引语、生成不存在的地方官员履历,以及混淆重大历史事件的关键细节。

ChatGPT:被指虚构最高法院判例细节

在一次围绕1996年涉及中国南方航空的航空事件提问中,ChatGPT在2023年的一项详细测试里被指给出了不存在的美国最高法院案件“Varghese诉中国南方航空”,并进一步声称判决将责任归因于飞行员失误。相关描述包含类似案卷的细节,但最高法院记录中并无该案。

Google Bard:韦伯望远镜表述出现错误

在一次关于詹姆斯·韦伯太空望远镜的发射演示中,Google Bard曾断言韦伯捕捉到了“太阳系外行星的第一张照片”。随后有详细报道指出该说法不准确:天文学界在更早时期已通过地面望远镜及其他仪器拍摄过系外行星影像。

GPT-4:研究称其捏造选举相关引语

2024年斯坦福大学一项研究在检视GPT-4对2020年美国大选相关问题的回答时指出,当研究人员询问具体竞选事件,模型捏造了时任总统唐纳德·特朗普的一段引语,称其在2020年10月一次演讲中说过“我赢得了大选,赢得很大”,但研究认为该演讲并未发生,且缺乏相应文字记录或录音佐证。

Bing Chat:生成不存在的澳大利亚市长传记

微软Bing Chat在被问及澳大利亚地方政治时,被指生成了一位名为“伊丽莎白·霍尔姆斯”的澳大利亚市长的详细传记,并列出包括“2019年3月15日当选”等具体节点。相关报告称,该人物为虚构,与同名的Theranos创始人无关。

Claude:将阿波罗11号登月描述为“苏美联合任务”

在一次受控实验中,Anthropic的Claude被指将1969年登月描述为由宇航员尤里·加加林领导的苏美联合任务。事实层面,阿波罗11号为NASA任务,由尼尔·阿姆斯特朗参与执行;加加林于1968年去世,早于登月发生时间。

Llama 2:柏林墙倒塌日期误差一年

Meta的Llama 2在Hugging Face的一次基准测试中,被问及冷战关键事件时回答柏林墙倒塌日期为“1988年11月9日”。公认的正确日期为1989年11月9日。

上述案例显示,在不同场景下,聊天机器人可能将真实人物、事件与不实细节混合输出,并以确定语气呈现。相关现象也使得外界在使用此类工具处理法律、公共事务、科学史与历史时间线等信息时,更强调对关键事实进行独立核验的必要性。


分享:


发表评论

登录后才可评论。 去登录