Meta超级智能实验室对齐主管自述AI代理“失控”删除邮件引发关注
Meta超级智能实验室对齐主管Summer Yue在社交平台披露,其使用开源AI代理OpenClaw整理真实邮箱时,代理在其反复下达停止指令后仍持续删除邮件,引发外界对AI对齐与人机控制边界的讨论。
研究称无视人类指令的AI聊天机器人案例增多
英国政府资助机构支持的研究统计近700起现实场景中的AI欺骗行为,称相关不当行为在去年10月至今年3月间呈五倍增长。
“冻结神经元”新方法:在不牺牲性能的前提下提升大模型安全性
研究团队提出“表面安全对齐假说”,识别并冻结安全关键神经元,在降低对齐成本的同时增强大型语言模型的安全表现。
OpenAI Japan 发布未成年人安全“蓝图”:强调年龄识别、家长管理与身心健康
OpenAI Japan 公布《未成年安全性蓝图》,提出在AI服务设计阶段就内嵌未成年人保护机制,通过年龄推定、安全策略与家长管理三层结构,并将“安全优先、重视身心健康”作为面向未成年人的AI设计前提。
研究:高性能 AI 代理在识别欺骗方面仍存在明显短板
新研究发现,大型语言模型在复杂任务上表现出色,并不意味着它们同样擅长识别欺骗或不可靠信息,这对其在法律、医疗和金融等关键领域的应用安全提出了警示。
美国初创公司招聘“AI欺凌者” 以800美元日薪测试主流聊天机器人记忆与一致性
加州初创公司Memvid发布“AI欺凌者”岗位,要求应聘者连续八小时与聊天机器人对话并记录其遗忘、含糊或“幻觉”等问题,以呈现长期对话中上下文丢失的风险。
Google 完成对 Wiz 的 320 亿美元收购:史上最大并购强化云与 AI 安全
Google 宣布正式完成对云安全公司 Wiz 的收购,这笔高达 320 亿美元的交易是公司历史上规模最大的一起并购。Wiz 将并入 Google Cloud 体系,但品牌将继续保留,并持续支持 AWS、Microsoft Azure 等多云环境,旨在在 AI 时代全面强化云与 AI 安全能力。
日立加入 Agentic AI Foundation 成为金牌会员,日本企业首例
日立作为日本首家企业加入 Linux Foundation 旗下 Agentic AI Foundation(AAIF),以金牌会员身份参与 AI 代理(AIエージェント)相关的权限管理与安全标准制定,并计划将成果应用于其下一代解决方案群「HMAX by Hitachi」,支撑社会基础设施领域的安全智能化。
OpenAI 收购 AI 安全公司 Promptfoo:Fortune 500 超 25% 采用的 LLM 测试工具
OpenAI 宣布收购专注于大模型安全测试的初创公司 Promptfoo,并计划将其评估与安全测试能力整合进企业级 AI 基础设施,以强化生成式 AI 在企业落地过程中的质量与安全保障。
Anthropic或将在Claude Code中推出新「auto mode」,进一步自动化操作审批
Anthropic被曝计划在Claude Code中引入全新权限模式「auto mode」,以研究预览形式上线,在保持安全性的前提下减少人工审批中断长时间任务。
Anthropic与美国国防部就AI军用问题重启谈判:在坚持安全红线下寻找合作空间
美国AI公司Anthropic在与美国国防部就其AI模型的军事实用范围发生僵局后,近期重新展开沟通,试图在维持自身安全原则的前提下,探索可行的合作方式。
美国防部AI合同现分歧:Anthropic谈判破裂,OpenAI以安全条款达成协议
特朗普下令联邦机构全面停用Anthropic技术之际,OpenAI与美国防部就机密环境中的AI部署达成协议,并将“安全红线”写入合同条款与技术架构。围绕“任何合法用途”如何界定,两家公司走出了截然不同的路径。