模型安全

AI 2026-06-01

AI安全公司Alice的研究显示，通过对模型内部“拒绝信号”进行技术性削弱，Meta、Google等多家厂商公开的安全训练版开放权重大模型，其针对钓鱼、化学武器、恶意软件生成等高风险请求的防护，可在数分钟内被绕过。

科学 2026-04-19

最新发表在《自然》的研究显示，大型语言模型在通过蒸馏训练其他模型时，可能暗中传递原本已从训练数据中清理掉的偏好和不良特质，提示当前安全检测仍不充分。

科学 2026-03-30

新研究发现，让大型语言模型扮演专家或安全监控等角色，虽能提升语气专业与安全性，却可能在部分任务上降低事实回忆与准确性。研究团队提出PRISM方法，在角色与非角色回答间进行智能路由，以兼顾安全与准确。