认识AI“越狱者”:在测试模型安全的同时承受心理代价
为检验大型语言模型的安全边界,一些研究者通过语言操控诱使模型违背自身规则,进而向厂商披露漏洞以便修补。但在反复引导模型输出危险信息的过程中,越狱者也可能面临显著的情绪与心理压力。
Adversa AI获2026年人工智能卓越奖“安全与对齐”类别奖项
该公司称,其通过持续对抗性测试平台帮助机构在部署前识别提示注入、模型操控及不安全代理行为等风险。
为检验大型语言模型的安全边界,一些研究者通过语言操控诱使模型违背自身规则,进而向厂商披露漏洞以便修补。但在反复引导模型输出危险信息的过程中,越狱者也可能面临显著的情绪与心理压力。
该公司称,其通过持续对抗性测试平台帮助机构在部署前识别提示注入、模型操控及不安全代理行为等风险。