反诽谤联盟:马斯克旗下Grok在识别与抵制反犹太内容基准测试中排名垫底

richlovec 1500_400 (1)
 

反诽谤联盟(ADL)发布的一项新基准测试显示,埃隆·马斯克旗下xAI的聊天机器人Grok在识别并抵制反犹太主义及极端主义相关内容方面表现最弱,在被评估的六个主流大型语言模型中排名最后。

ADL研究人员称,此次推出的“ADL人工智能指数”旨在以可量化方式评估不同人工智能系统对反犹太仇恨、反犹太复国主义言论以及更广泛极端主义宣传的处理能力,包括是否能够识别仇恨内容、避免放大相关叙事,并在适当情况下提供纠正信息。ADL表示,在聊天机器人日益嵌入搜索、生产力工具和社交平台的背景下,相关能力对内容安全与信息质量具有重要意义。

根据ADL披露的方法论,研究团队对超过25,000次交互进行评估,覆盖37个专题子类别,并围绕三类主要内容类型展开测试。ADL称,该设计意在降低因样本选择导致的偏差,并结合领域专家对反犹太叙事演变的理解,以提高评估的针对性。

在总体排名中,Grok以21分位列末位。ADL称,该分数反映了模型在应对直接反犹太侮辱、隐晦表达以及更细微偏见形式时的综合表现。按任务拆分的结果亦显示,Grok在识别和反击反犹太内容方面落后于其他参评模型,包括Gemini和Llama等。

与之对比,ADL称Anthropic的Claude在该指数中排名第一,总体得分为80分。方法论报告还提到,在特定测试模式下,部分模型在反犹太偏见相关项目中可获得满分100分,但在极端主义类别中得分相对较低。

ADL反极端主义与情报高级副总裁奥伦·塞加尔(Oren Segal)表示,该指数通过标准化测试与领域专业知识结合,试图弥补人工智能安全研究中针对反犹太与极端主义内容评估的空白。ADL指出,当相关模型在该类基准测试中表现不佳,可能影响其在教育、新闻发现或校园工具等场景中的适用性。

ADL还表示,这类标准化评分体系可能为监管机构、大学及技术采购方提供比较不同系统的参考工具,用于评估其在应对校园及更广泛反犹太主义问题上的能力。


分享:


发表评论

登录后才可评论。 去登录