乌尔都语假新闻AI检测系统问世:基于1.4万篇报道,准确率达96%

一项刊登在学术期刊《Scientific Reports》上的最新研究显示,研究团队构建的深度学习模型,利用超过1.4万篇来自巴基斯坦的乌尔都语新闻文章进行训练,在识别虚假信息方面达到了96%的准确率。这一系统被认为是目前覆盖最广、最全面的乌尔都语假新闻检测人工智能工具。乌尔都语是全球使用人数排名第十的语言,使用者超过1.7亿人。

该模型不仅能够识别完全虚假的新闻,还能检测误导性内容以及“部分真实”的报道,从而弥补了此前乌尔都语假新闻检测系统的诸多不足。来自苏格兰爱丁堡赫瑞瓦特大学的穆罕默德·齐山·巴巴尔(Muhammad Zeeshan Babar)博士指出,目前大多数自动化假新闻检测系统都是基于英语数据集训练的。

他强调,乌尔都语既是世界第十大使用语言,也是巴基斯坦的国家语言,但在人工智能训练所需的大规模数据集方面却严重不足,可被视为一种“资源匮乏语言”。

现有乌尔都语数据集的缺口

在开展研究之前,齐山·巴巴尔及其团队首先对现有的乌尔都语新闻数据集进行了系统评估。

他们发现,许多现有数据集在内容覆盖上存在明显缺陷:政治、宗教以及其他社会敏感议题往往被排除在外。这些主题恰恰是虚假信息频繁出现的领域,形成了一个关键空白。

研究团队指出,巴基斯坦新闻中的虚假信息不仅影响本地读者,也会通过全球侨民社群在更大范围内传播,涉及政治、宗教、社会等各类议题。

病毒式扩散的谣言可能对公共健康、选举公正,以及公众对警察和政府机构的信任造成深远影响。因此,建立一个稳健的乌尔都语事实核查与假新闻检测基础设施被视为当务之急,这也是团队着手构建全新乌尔都语假新闻数据集的主要动机。

构建开放数据集以提升系统表现

研究团队最终整理出一个覆盖2017年至2023年的乌尔都语新闻数据集,共包含14,178篇新闻文章。这些文章分布在15个主题领域,包括政治、健康、商业、教育、体育、科学、犯罪、技术以及社会问题等。

根据论文描述,在这14,178篇文章中,有8,283篇被标注为真实新闻,5,895篇被标注为虚假新闻。深度学习模型通过学习这些文本中的词汇使用、句式结构、情感倾向以及整体语言模式,来区分捏造的故事与可信的新闻报道。

巴基斯坦拉合尔大学计算机科学系主任瓦西姆·阿巴西(Waseem Abbasi)博士表示,团队已将这一数据集以开放获取的方式发布,便于后续研究者持续改进模型性能。

他指出,96%的准确率已经相当可观,但在内容审核、广告投放以及潜在的法律应用场景中,这一误差水平仍可能带来实际影响。

阿巴西同时提醒,基于历史数据训练的算法在面对新出现的叙事模式时可能表现不佳,例如可能误判讽刺内容或政治异议言论。

尽管如此,对于数以百万计需要在信息噪声与虚假内容中辨别真伪的乌尔都语新闻读者而言,这一系统仍有望发挥重要作用。

研究团队表示,下一阶段的工作将尝试将类似方法扩展到其他语言的数据集上,以应对更广泛语种环境中的虚假信息问题。


分享:


发表评论

登录后才可评论。 去登录