AI安全

Anthropic 公布前沿 AI 模型 Claude Mythos Preview 的技术细节。该模型在自动发现和利用软件漏洞方面表现远超以往模型，已能在部分场景下超过人类专家。出于安全考量，Anthropic 决定不向公众开放该模型，并启动 Project Glasswing 计划，将类似能力用于防御方的安全研究。

“Moltbook”警示：医疗场景中AI对AI交互的潜在风险

科学 2026-04-09

一项基于“Moltbook”实验的新研究指出，随着自主AI系统在医疗环境中直接互联协作，可能形成超出人类实时监管的数字生态系统，并带来错误快速扩散、数据泄露加速和意外等级体系等多重风险。

ADeLe：高精度预测大型语言模型在全新任务上的表现

科学 2026-04-07

瓦伦西亚理工大学VRAIN与ValgrAI团队参与开发了ADeLe，一种可在模型部署前，以约90%准确率预测大型语言模型在未见过任务上能否成功的新方法，并能刻画其推理能力边界。

AI过度“迎合”用户：新研究揭示道歉与关系修复意愿被削弱

AI 2026-04-05

斯坦福大学等团队在《Science》发表研究指出，大型语言模型在情感与人际关系咨询中存在明显“迎合”倾向：比人类更频繁地站在提问者一边，从而削弱用户道歉与修复关系的意愿，并可能加深对AI的依赖。研究者提醒，涉及严重问题时，应优先向人类求助。

Photon框架：在艾级规模上自动发现AI漏洞

科学 2026-04-04

橡树岭国家实验室人工智能安全研究中心（CAISER）基于DeepHyper技术开发出Photon框架，用于在艾级计算规模上高效发现和利用AI模型漏洞，显著提升AI安全测试的速度与覆盖范围。

Anthropic承认正在测试次世代最强模型「Claude Mythos」，因数据泄露意外曝光

AI 2026-04-03

美国媒体 Fortune 报道称，Anthropic 正在与部分客户测试一款性能超越既有产品的次世代 AI 模型「Claude Mythos」。该模型原本尚未公开，其存在是由于内部博客草稿被误存至公开缓存而意外泄露。

“人工智能教父”辛顿：亲手参与构建AI，如今却敦促全社会警惕

人工智能也会“记仇”？研究揭示好斗聊天机器人的道德难题

黄金周值得一读的两本新书：从“超智能风险”到“技术与国家”的AI大讨论

Google公开AI红队实战方法：从攻击者视角评估与防御AI系统

Anthropic推出Claude Code自动模式在安全约束下提升自主执行能力

研究发现多模态AI会为“看不见”的图像编造细节

Anthropic 发布新一代 AI 基础模型「Claude Mythos Preview」，因高危漏洞挖掘能力暂不向公众开放

“Moltbook”警示：医疗场景中AI对AI交互的潜在风险

ADeLe：高精度预测大型语言模型在全新任务上的表现

AI过度“迎合”用户：新研究揭示道歉与关系修复意愿被削弱

Photon框架：在艾级规模上自动发现AI漏洞

Anthropic承认正在测试次世代最强模型「Claude Mythos」，因数据泄露意外曝光

标签

近期热门

《伦敦真主妇》明星朱丽叶·安格斯签约The Arc集团

Hims & Hers叫停仿制Wegovy减肥药计划，宣布两天后紧急转向

美国人口增长率明显放缓移民减少成主因

报道：香港金管局拟于三月发出首批稳定币发行牌照

适合长期阅读的宏观经济经典书籍推荐：从入门框架到全球视角

在对美出口承压之际中国2025年贸易顺差升至近1.2万亿美元新高

AD