Anthropic警示「AI自我进化」风险:Claude已生成公司八成以上代码,呼吁建立可验证的减速与暂停机制
Anthropic披露,Claude已负责公司生产环境中超过80%的代码生成,并警告AI可能走向“再归纳式自我改进”。公司呼吁建立国际可验证的AI开发减速与一时暂停机制,为安全与治理预留时间。
Meta与Google等开放权重AI模型被曝可在数分钟内解除安全防护,暴露开放权重模式的安全隐患
AI安全公司Alice的研究显示,通过对模型内部“拒绝信号”进行技术性削弱,Meta、Google等多家厂商公开的安全训练版开放权重大模型,其针对钓鱼、化学武器、恶意软件生成等高风险请求的防护,可在数分钟内被绕过。
研究称多样化通用人工智能生态或比单一可控系统更安全
新研究指出,足够强大的通用人工智能难以被完全预测和控制,与其追求单一、完美对齐的系统,不如构建由多种目标与价值观构成的“智能体神经多样性”生态,让不同AI相互制衡,从而在整体上更安全、更有韧性。
联邦遗忘:在强化数据隐私与引入安全风险之间的微妙平衡
联邦遗忘被视为保护数据隐私的重要技术,但在提升“被遗忘权”的同时,也可能打开新的网络安全漏洞与国家安全隐患。
重审阿西莫夫三定律:能否避免人工智能的“切尔诺贝利时刻”?
伊朗冲突与乌克兰战争显示,人工智能正在重塑战争逻辑,也可能正把人类推向一场“切尔诺贝利式”的技术灾难。也许只有在经历严重事故后,我们才会痛苦地意识到:必须为自己创造的技术设定共同规则。
Artificial Epistemics宣布启动“Susty Code”协议授权,聚焦提升AI知识真实性与道德性
Artificial Epistemics表示,“Susty Code”是一套基于知识论的规则协议,旨在在信息传播或使用前对AI生成内容及其内部知识进行测试与评估,以降低错误信息与不道德内容风险。
Singulr AI 任命 Richard Bird 兼任首席安全与战略官
Singulr AI 表示,此次职务调整旨在在企业推进自主智能体 AI 规模化应用过程中,将 AI 治理与安全工作与公司战略、市场方向及客户互动进一步整合。
Dataiku宣布推出AI成功平台
Dataiku发布“AI成功平台”,定位为独立的企业级编排层,旨在帮助企业将AI从试点推进至可治理、可衡量的业务绩效阶段,并同步推出代理管理、推理系统与Cobuild三项新产品。
OneTrust扩展实时AI治理能力,新增可观测性与执行控制
OneTrust在Gartner数据与分析峰会上宣布扩展其AI就绪治理平台,新增跨代理、模型与数据的实时监控与护栏执行能力,旨在将AI治理从静态合规流程延伸至持续的运行时控制。
阿尔特曼:到2028年底,全球一半以上的智力劳动或将由AI完成
OpenAI CEO 萨姆·阿尔特曼在印度发表演讲,首次用具体年份指向“超知能”到来时间,并预测到 2028 年底,全球过半的智力工作可能由数据中心内的 AI 系统承担。
Perforce多款AI产品及功能通过ISO 42001认证
Perforce Software表示,其产品组合中的多项AI能力已获得ISO 42001认证。该标准为首个专门用于验证组织负责任管理人工智能的国际标准。
受害者呼吁加大对深度伪造滥用的打击力度 相关新罪名正式生效
活动人士欢迎将非自愿生成的AI色情图像制作纳入刑事犯罪,但呼吁引入更有力的民事救济、完善教育并加大对受害者服务的资金支持。
