AI对齐

商业 2026-04-30 科技最前沿

为检验大型语言模型的安全边界，一些研究者通过语言操控诱使模型违背自身规则，进而向厂商披露漏洞以便修补。但在反复引导模型输出危险信息的过程中，越狱者也可能面临显著的情绪与心理压力。

AI 2026-04-16 小A聊AI

该公司称，其通过持续对抗性测试平台帮助机构在部署前识别提示注入、模型操控及不安全代理行为等风险。