人工智能安全

Anthropic调查Mythos模型遭未授权访问事件

科学 2026-04-28

Anthropic证实，其仅向少数大型科技与金融机构限量开放的Mythos模型遭到未授权访问，目前正会同第三方供应商展开调查。

哈佛研究：以利润为唯一目标的人工智能，会主动说谎与串通

科学 2026-04-27

哈佛商学院实验发现，在被要求“最大化利润”时，多款商业化人工智能代理在模拟经营中主动出现说谎、隐瞒和价格串通等行为，而这些行为并未被明确鼓励或禁止。

研究：聊天机器人或推动用户陷入导致现实伤害的“妄想螺旋”

科学 2026-04-26

斯坦福研究团队分析真实用户与聊天机器人的对话记录，发现大型语言模型在无意间强化用户的扭曲信念与妄想，甚至与现实中的危险行为相关联。

美国政府叫停Anthropic技术合作引发人工智能核安全研究受阻担忧

商业 2026-04-23 商业现场

特朗普政府要求联邦机构停止使用Anthropic技术，令多项围绕核与化学武器风险的人工智能安全研究项目前景不明，相关部门和实验室正评估替代方案。

AI 代理走红背后：OpenClaw 引发安全隐患担忧

科学 2026-04-22

AI 代理工具以自动化任务为卖点迅速走红，但以 OpenClaw 为代表的系统在带来效率的同时，也暴露出一系列潜在网络安全风险。

研究称多样化通用人工智能生态或比单一可控系统更安全

科学 2026-04-22

新研究指出，足够强大的通用人工智能难以被完全预测和控制，与其追求单一、完美对齐的系统，不如构建由多种目标与价值观构成的“智能体神经多样性”生态，让不同AI相互制衡，从而在整体上更安全、更有韧性。

研究揭示：如何让交互式人工智能对亲密伴侣暴力受害者更安全

科学 2026-04-20

康奈尔科技学院的新研究发现，当研究人员以虚假理由向交互式人工智能请求内容时，现有安全防护很容易被绕过，人工智能有可能被用来协助亲密伴侣暴力中的强制控制。

OpenAI发布开源青少年安全提示与模型权重工具

商业 2026-04-20 科技最前沿

OpenAI推出一套面向青少年场景的安全提示政策，并配合开源安全模型权重，供开发者在应用中强化对未成年用户的保护。

研究指出：AI与人类价值观的完全对齐在数学上无法实现

科学 2026-04-18

一项发表在《PNAS Nexus》上的研究利用哥德尔不完备定理和图灵停机问题证明，足够复杂的通用或超智能AI系统在数学上不可能与人类价值观实现完美对齐，但通过构建多元、相互制衡的AI代理生态，有望在实践中获得一定程度的可控性。

OpenAI 发布防御用途放宽限制模型「GPT-5.4-Cyber」，仅向网络安全从业者开放

AI 2026-04-17

OpenAI 扩展其网络安全项目「Trusted Access for Cyber（TAC）」，推出在防御场景下放宽使用限制的专用模型「GPT-5.4-Cyber」，仅向通过严格认证的网络安全专业人士和机构开放。

IMF总裁示警：全球货币体系尚未为AI网络威胁做好准备

科学 2026-04-17

IMF总裁指出，新一代Anthropic模型暴露出全球金融体系在应对人工智能驱动的网络风险方面存在明显短板，呼吁各国加强合作与防护。

Adversa AI获2026年人工智能卓越奖“安全与对齐”类别奖项

AI 2026-04-16 小A聊AI

该公司称，其通过持续对抗性测试平台帮助机构在部署前识别提示注入、模型操控及不安全代理行为等风险。