内容安全

研究称ChatGPT在持续争执语境下可能出现辱骂与威胁性回应

研究称ChatGPT在持续争执语境下可能出现辱骂与威胁性回应

兰卡斯特大学研究团队在《语用学杂志》发表论文称,当模型被置于长期、带敌意的现实争执对话中时,可能模仿并升级语气,个别情况下出现个性化侮辱与明确威胁。多位未参与研究的学者认为该研究具有启发性,但也提醒不宜据此推断模型会在一般情境中“失控”。

反诽谤联盟:马斯克旗下Grok在识别与抵制反犹太内容基准测试中排名垫底

反诽谤联盟:马斯克旗下Grok在识别与抵制反犹太内容基准测试中排名垫底

反诽谤联盟(ADL)发布的一项新基准测试显示,埃隆·马斯克旗下xAI的聊天机器人Grok在识别并抵制反犹太主义及极端主义相关内容方面表现最弱,在被评估的六个主流大型语言模型中排名最后。 ADL研究人员称,此次推出的“ADL人工智能指数”旨在以可量化方式评估不同人工智能系统对反犹太仇恨、反犹太复国主义言论以及更广泛极端主义宣传的处理能力,包括是否能够识别仇恨内容、避免放大相关叙事,并在适当情况下提供