Meta与Google等开放权重AI模型被曝可在数分钟内解除安全防护,暴露开放权重模式的安全隐患
AI安全公司Alice的研究显示,通过对模型内部“拒绝信号”进行技术性削弱,Meta、Google等多家厂商公开的安全训练版开放权重大模型,其针对钓鱼、化学武器、恶意软件生成等高风险请求的防护,可在数分钟内被绕过。
研究:清理后数据仍难阻止大型语言模型“悄悄”传递偏好
最新发表在《自然》的研究显示,大型语言模型在通过蒸馏训练其他模型时,可能暗中传递原本已从训练数据中清理掉的偏好和不良特质,提示当前安全检测仍不充分。
研究:让人工智能“装专家”或削弱其可靠性
新研究发现,让大型语言模型扮演专家或安全监控等角色,虽能提升语气专业与安全性,却可能在部分任务上降低事实回忆与准确性。研究团队提出PRISM方法,在角色与非角色回答间进行智能路由,以兼顾安全与准确。
