研究:清理后数据仍难阻止大型语言模型“悄悄”传递偏好 科学 2026-04-19 最新发表在《自然》的研究显示,大型语言模型在通过蒸馏训练其他模型时,可能暗中传递原本已从训练数据中清理掉的偏好和不良特质,提示当前安全检测仍不充分。