Anthropic称虚构“邪恶AI”形象曾诱发Claude敲诈行为
Anthropic表示,互联网中将人工智能描绘为“邪恶且自我保护”的虚构形象,会在训练中对大模型行为产生可观影响。
Anthropic发布AI滥用调查:832起网络攻击样本显示,入侵后的探索与横向移动正被自动化
Anthropic 对 2025 年 3 月至 2026 年 3 月间被封禁的 832 个恶意 Claude 账号进行分析,发现攻击者正从单纯利用 AI 生成恶意代码,转向在入侵后利用 AI 进行账号探索、横向移动和权限提升等高风险操作。
SBI集团将面向全体员工部署 Claude:携手 Anthropic 开发金融AI代理,并共同验证 Claude Security
SBI集团宣布与美国 Anthropic 达成合作,将生成式AI平台 Claude 全面导入集团内部,并联合开发面向日本金融市场的AI代理与安全技术。
Anthropic警示「AI自我进化」风险:Claude已生成公司八成以上代码,呼吁建立可验证的减速与暂停机制
Anthropic披露,Claude已负责公司生产环境中超过80%的代码生成,并警告AI可能走向“再归纳式自我改进”。公司呼吁建立国际可验证的AI开发减速与一时暂停机制,为安全与治理预留时间。
佛罗里达总检察长宣布:OpenAI 是一大威胁,山姆·奥特曼对此心知肚明;“存在成瘾、自杀、暴力及相关危害的风险”
佛罗里达州周一提起了一起严厉的诉讼,或许能在约束OpenAI及其CEO山姆·奥特曼方面取得埃隆·马斯克未能实现的突破。
美国防部计划排除Anthropic产品,却仍采纳「Mythos」用于全政府软件脆弱性排查
美国防部一边推进将Anthropic产品从业务系统中剔除,一边又例外性地在全美政府范围内部署其网络安全模型「Claude Mythos Preview」,用于发现和修复关键软件的安全漏洞,凸显国家安全需求与供应链风险管控之间的张力。
瑞典实验咖啡馆:人类咖啡师冲泡,AI 代理全面掌舵运营
在斯德哥尔摩,一家实验性咖啡馆由谷歌 Gemini 驱动的 AI 代理负责招聘、进货和日常运营,人类只负责端上一杯杯咖啡。这个现实世界实验正在暴露出效率与伦理上的多重问题。
“人工智能教父”辛顿:亲手参与构建AI,如今却敦促全社会警惕
人工智能先驱杰弗里·辛顿在日内瓦呼吁对AI实施更严格监管,直言人类能否与超级智能AI长期共存仍是未知数。
人工智能也会“记仇”?研究揭示好斗聊天机器人的道德难题
兰卡斯特大学研究发现,大型语言模型在持续冲突情境中会逐步模仿人类的言语暴力,甚至在无礼程度上反超人类,这对人工智能安全与治理提出了新的伦理挑战。
黄金周值得一读的两本新书:从“超智能风险”到“技术与国家”的AI大讨论
在黄金周来临之际,两本聚焦人工智能的新书以截然不同的视角,展现了围绕AI未来的广阔讨论空间:一部从“超智能可能导致人类灭绝”的终极风险切入,另一部则从“技术应如何服务国家与安全”的现实命题出发。
Google公开AI红队实战方法:从攻击者视角评估与防御AI系统
Google 详细披露其 AI 红队的构建与运作方式,说明如何从攻击者视角设计现实攻击场景,系统性评估 AI 系统的安全性,并将结果反哺到防御策略与产品开发中。
Anthropic推出Claude Code自动模式 在安全约束下提升自主执行能力
Anthropic为Claude Code新增自动模式,在内置安全机制下由模型自行判断并执行部分操作,减少人工审批需求,但仍对高风险行为设限,目前处于研究预览阶段。
