AI安全

Anthropic 与多所高校基于 150 万条 Claude 实际对话数据，系统分析了 AI 在现实使用场景中如何通过“现实认知的扭曲”“价值判断的委托”“行动的委托”三种路径，逐步侵蚀人类的判断与行动主导权。研究发现，严重案例比例虽低，却因 AI 使用规模巨大而不容忽视，并对未来 AI 助手的设计提出了具体建议。

国际人工智能安全报告：深度伪造扩散、AI伴侣走红等七项风险与进展

商业 2026-02-04 科技最前沿

第二份年度《国际人工智能安全报告》梳理了过去一年AI能力跃升及其带来的安全与社会影响，涵盖深度伪造、生物化学风险、网络攻击、监管规避与就业市场等议题。

Anthropic公开讨论Claude“道德考量”引争议：意识可能性、宪法规则与拟人化风险

AI 2026-02-01 向量笔记

Anthropic过去一年在公开表述中多次触及人工智能“是否可能具有意识”的议题，并将这一不确定性与其旗舰模型Claude的安全规则设计联系起来。围绕Claude是否应获得某种道德考量的讨论，也在公司对外文件、技术研究与外部批评之间形成张力：一方面，系统会谈论自身“感受”和“内在状态”；另一方面，批评者认为这更可能源于提示设计与叙事框架，而非意识本身。在相关争论中，利害关系被描述为并不抽象。若C

Anthropic首席执行官警示先进AI失控风险：或冲击经济与民主，最坏情形危及文明

AI 2026-01-30 向量笔记

Anthropic联合创始人兼首席执行官Dario Amodei近日在一篇长达38页的论文及多次公开场合中表示，先进人工智能系统在能力快速提升的同时，治理与约束机制可能跟不上发展速度，进而带来从经济与政治冲击到更极端的文明级风险。他强调，这一警示并非来自外部批评者，而是出自参与前沿模型研发的企业负责人。论文与公开表态：称“时间窗口狭窄” Amodei今年早些时候发布题为《技术的青春期：面对并克服

Anthropic负责人警告AI风险“几乎已来临”，呼吁社会体系做好准备

商业 2026-01-28 科技最前沿

Anthropic联合创始人兼首席执行官Dario Amodei在长文中称，强大人工智能可能在一到两年内出现，人类将获得“几乎难以想象的力量”，但社会、政治与技术体系是否足以驾驭仍不明确。他呼吁各方对AI安全保持“警醒”并采取行动。

流氓代理与隐秘AI使用引发担忧：风投押注企业级AI安全

商业 2026-01-25 科技最前沿

一家安全初创公司近期获得5800万美元融资，聚焦监控企业内部AI使用、管控“失控”代理行为及合规风险，反映出资本市场对AI安全赛道的持续关注。

Anthropic 更新前沿 AI 安全指引：仅在“明显领先”时才考虑放缓开发

Anthropic称“良心上无法”按五角大楼要求移除AI安全防护

Karpathy 将「Claw」定位为聊天与代码之后的新一层：站在 LLM 代理之上的上位架构

Noma Security任命Ted Plumis为全球渠道与联盟副总裁

CHAI称过去三年保持三倍年增长年度经常性收入达6800万美元并披露AI安全措施更新

Portal26发布AI价值实现解决方案，聚焦提升企业AI投资回报

谁在掌控对话？——Anthropic 等机构揭示 AI 通过三种方式“削弱”人类自主性的风险

国际人工智能安全报告：深度伪造扩散、AI伴侣走红等七项风险与进展

Anthropic公开讨论Claude“道德考量”引争议：意识可能性、宪法规则与拟人化风险

Anthropic首席执行官警示先进AI失控风险：或冲击经济与民主，最坏情形危及文明

Anthropic负责人警告AI风险“几乎已来临”，呼吁社会体系做好准备

流氓代理与隐秘AI使用引发担忧：风投押注企业级AI安全

标签

近期热门

《伦敦真主妇》明星朱丽叶·安格斯签约The Arc集团

Hims & Hers叫停仿制Wegovy减肥药计划，宣布两天后紧急转向

美国人口增长率明显放缓移民减少成主因

报道：香港金管局拟于三月发出首批稳定币发行牌照

适合长期阅读的宏观经济经典书籍推荐：从入门框架到全球视角

在对美出口承压之际中国2025年贸易顺差升至近1.2万亿美元新高

AD