人工智能语言识别偏差或影响气候灾害信息捕捉

richlovec 1500_400 (1)
 

一条洪水期间出现在网络上的信息写道:“This rain no be small o, everywhere don red。”对不熟悉这种表达的人而言,这句话可能难以迅速理解;但对尼日利亚用户来说,其含义清晰,指向洪水严重且正在加剧。

类似的表达在数字平台上并不少见。用户在X、WhatsApp和Facebook等社交平台发布预警与现场反应时,往往不会使用标准化英语,而是夹杂当地表达、俚语以及由社区语境塑造的日常语言。

随着人工智能在公共治理与社会服务中的应用增加,政府和机构正更多使用相关工具扫描社交媒体、汇总公众讨论,并尝试将其用于环境与气候议题的监测与应对。不过,多数工具在理解真实交流方式方面仍存在局限:地方表达与俚语可能使系统产生困惑,导致重要信息被误解,甚至被完全遗漏。

报道指出,语言障碍并不只体现在不同语言之间的翻译。全球网络交流中普遍存在混合使用多种语言与本地表达的现象,语言学家将其称为“代码切换”。在这一语境下,信息的含义往往依赖文化背景与语用习惯,而非字面词义。

与此同时,气候新闻报道正越来越多地转向线上渠道,但发展中国家的气候记者数量相对较少。相关情况被认为限制了大量人口获取信息的深度与可用性,并影响不同地区对气候问题的讨论与理解方式。

在不同地区,社交媒体表达方式差异明显。例如,英国用户可能用“Are roads flooding already? Chuffed to know the council taking the piss.”表达对道路积水的关注并夹带对地方当局的讽刺与不满,这类语气在多数人工智能工具中相对更容易被识别。

而在尼日利亚,用户可能用“Abeg is it October wey rain dey fall like this, but you say the climate no change?”或“River don near our house o! Abeg help, e fit spoil everything!”描述异常降雨、对气候变化的质疑,以及河水逼近住宅的紧急求助。报道认为,这类带有尼日利亚洋泾浜英语与俚语的表达,常被人工智能模型简化为随意评论,从而忽视其中的紧迫性与情绪信号。

报道将这一问题与训练数据结构联系起来。多数人工智能系统主要基于北美和欧洲占主导的大规模西方中心文本进行训练。以ChatGPT为例,其训练依赖海量互联网文本,并通过识别在线文本模式生成回答。报道指出,人工智能会反映训练数据中的主导文化特征,形成“文化指纹”,在以英语提问时尤其可能呈现对西方表达习惯与文化价值的隐含偏向。

报道同时提到,人工智能偏差与训练数据中既有的社会不平等相关,包括种族、性别与地区差异等。在这一背景下,来自发展中国家、使用非英语中心英语变体的社区声音,可能更容易被削弱或忽视。

在气候危机情境下,上述偏差可能带来现实后果。报道指出,在洪水、热浪或其他极端天气事件中,若关键信息被误读,可能危及财产与生命安全。依赖既有模式的系统在面对符合预期标准的语言时更易解释,但包含地方俚语或紧迫提示的帖子则可能被错误分类。

为改善气候灾害应对,报道建议相关系统设计应更贴近真实交流方式:人工智能需要接受能够理解区域表达的训练,并认识到意义常依赖文化语境。与此同时,系统测试应更多基于真实网络帖子,而非以西方中心的正式英语为主,以更好捕捉紧迫性与本地参照。报道还强调,自动化系统可处理海量信息,但在人身安全可能受到威胁的场景中,应保留人工判断的介入。

本文转载自The Conversation,采用知识共享许可协议。


分享:


发表评论

登录后才可评论。 去登录