把 AI 聊天机器人当搜索?先想想你在信什么

richlovec 1500_400 (1)
 

在第一次世界大战期间,英国政府想办法帮助民众延长有限的食物供应。官员们翻出了一位19世纪著名草药学家的小册子,上面写着:大黄的叶子可以像茎一样,当作蔬菜食用。

政府随即印制了自己的宣传册,建议人们把大黄叶子做成沙拉,而不是扔掉。但问题在于:大黄叶其实可能有毒。据报道,当时确实有人因此生病甚至死亡。

后来,这一建议被纠正,小册子也被撤回。然而到了第二次世界大战,政府再次面临粮食紧张,又开始寻找延长食物供应的办法。

他们翻出了上一次战争遗留下来的旧资料,其中介绍了各种非常规食物来源,包括大黄叶。重复利用这些小册子看起来既省时又高效,于是又发放给了公众。结果,类似的中毒和疾病事件据称再次发生。

这些小册子本质上就是错误信息,但公众两次都几乎没有理由怀疑它们。毕竟,那是政府正式发布的资料——为什么会不安全呢?

这个故事说明,错误信息即便在事后被纠正,仍可能在很久之后继续造成伤害。在生成式人工智能(AI)时代,这个教训依然适用。

聊天机器人不是搜索引擎

生成式 AI 会根据其训练时摄取的大量原始信息,生成文本、图像以及其他形式的内容。但它同样可能成为一种“错误信息加速器”:制造错误内容的速度,远远快于人类生产可靠信息、进行事实核查和纠正的速度。

就像大黄叶的故事所展示的那样,后续的纠正并不总能彻底清除最初留下的“污染”。

ChatGPT、Claude 等 AI 平台的工作方式,与传统搜索引擎有本质差异。但很多人却把它们当作搜索引擎来用,因为它们似乎能快速概括复杂话题,而且比传统搜索少了许多点击和筛选。

搜索引擎的基本逻辑,是从关于某个主题的大量网页和文章中进行筛选,并尝试评估这些来源的可靠性。而生成式 AI 则是基于庞大的文本语料库,计算词语之间相邻出现的概率。

这些所谓的“大型语言模型”,目标是生成“看起来合理”的句子,而不是“保证正确”的句子。

举个简单的例子:如果“绿色鸡蛋和火腿”在训练语料中出现得足够频繁,当有人询问“鸡蛋和火腿”时,模型就更有可能把它们描述成“绿色的”,因为这符合它在数据中学到的词语搭配模式。

“看上去对,其实错”

开发 ChatGPT 的 OpenAI 在自己的研究中承认:基于生成式 AI 的工作原理,无法彻底阻止错误信息被当作事实输出。研究人员在解释大型语言模型为何会“幻觉”时写道:

就像面对难题的学生,大型语言模型在不确定时有时会猜测,生成看似合理却错误的陈述,而不是承认自己不确定。

这种“看上去对,其实错”的内容,会带来现实世界的后果。一项最新研究显示,ChatGPT 在超过一半的案例中未能识别出医疗紧急情况。而且,医疗记录本身就可能存在大量错误——2025年英国的一项调查发现,多达四分之一的患者受到错误记录的影响。

在临床实践中,医生往往会通过追加检查来确认诊断。但有研究者指出,生成式 AI“会用和正确答案几乎同样的自信程度,给出错误答案”。

另一位科学家则强调,问题的根源在于生成式 AI“只是寻找并模仿词语模式”。对错并不是它的首要目标:“它的任务是造句,它就造了句。”

研究表明,在不同语言和地区,生成式 AI 工具在传播新闻时的错误率可达 45%。如今,人们已经开始担心,AI 甚至可能因为“编造”不存在的徒步路线而危及生命。

当生成式 AI 建议人们吃石头,或者用胶水把披萨配料粘住时,人们很容易把它当成笑话。

但有些例子就没那么可笑了——比如某超市推出的餐单规划器,给出的食谱组合会产生氯气;又或者某些饮食建议,导致用户长期接触溴而中毒。

尽量寻找更早、未被“污染”的信息

在生成式 AI 逐步进入政府、官僚体系和大型复杂组织的背景下,教育公众、制定关于其“合适且谨慎使用”的规则,将变得尤为关键。

目前,政客们已经在日常工作中使用生成式 AI,包括政策研究等任务。医院急诊部门也在使用 AI 工具记录病人病历,以节省时间。

一种可能的安全措施,是尽量寻找在 AI 生成内容大规模“污染”互联网之前产生的信息来源,这些信息往往更可靠。

已经有人为此开发了专门工具。例如,澳大利亚艺术家 Tega Brain 就制作了一款工具,只返回在 2022 年 11 月 30 日(ChatGPT 首次公开发布之日)之前创建的内容。

最后,如果你本能地想去核实本文开头的大黄叶故事,那么传统纸质书可能是更好的起点:关于英国政府两次鼓励民众食用大黄叶、导致中毒的记载,可以在《毒园:有毒植物的 A-Z》和《植物的阴影生活:诅咒与毒药》这两本书中找到。

本文根据知识共享许可协议转载自《对话》(The Conversation)。可查阅原文以获取更多背景信息。


分享:


发表评论

登录后才可评论。 去登录