Anthropic限制发布网络安全模型Mythos 引发动机讨论
Anthropic以网络安全为由限制其新模型Mythos的公开发布,但业内人士指出,此举或同时与商业模式及防止模型蒸馏有关。
Mythos AI 带来严峻网络安全风险,但尚未颠覆格局
Anthropic 于 2026 年 4 月 7 日公布 Claude Mythos Preview 的意外攻防能力,引发全球对 AI 破坏网络安全潜力的担忧。不过,从技术本质看,它更像是对既有问题的放大,而非真正改写网络攻防规则。
新算法加速节能训练大模型,大幅减少联邦学习中的数据传输
斯蒂文斯理工学院团队提出联邦大模型训练新算法 MEERKAT,仅共享极少量关键参数更新,在降低通信与计算开销的同时提升模型性能和能效。
从ChatGPT聊天记录中读懂性格?研究揭示AI画像能力
苏黎世联邦理工学院团队分析数万条ChatGPT对话,发现大型语言模型可以从用户聊天历史中高精度推断人格五大特质,引发对隐私与大规模画像风险的关注。
美国初创公司Arcee发布4000亿参数开源大模型
美国小型初创公司Arcee在约2000万美元预算下推出4000亿参数开源大语言模型“Trinity Large Thinking”,定位为西方企业可替代中国模型的选项,并在部分开发者社区中快速获得使用。
研究称:你看到的网络广告,足以暴露你的隐私生活
新研究发现,仅凭用户在网上看到的广告内容,AI 就能高精度推断其政治立场、教育程度、就业状况等敏感信息,暴露出在线广告生态中的系统性隐私漏洞。
前Facebook高管创立Moonbounce:获1200万美元融资,聚焦AI时代内容审核
前Facebook业务诚信负责人Brett Levenson创立内容安全公司Moonbounce,提出“政策即代码”理念,将平台内容审核规则转化为可执行逻辑,并在最新一轮融资中获得1200万美元,用于扩展其面向AI应用的安全控制引擎。
DuckDuckGo 推出隐私优先聊天机器人 Duck.ai:聚合多家大模型且不追踪用户
DuckDuckGo 推出的 Duck.ai 通过聚合多家大型语言模型,在提供主流聊天机器人功能的同时,将隐私保护作为核心卖点,避免用户数据被用于画像或训练模型。
具代理性人工智能正在冲击研究资助体系
伦敦大学学院研究人员指出,现行研究资助机制是在没有具代理性人工智能的时代设计的,如今正面临前所未有的压力,亟需系统性调整。
人工智能也会“记仇”?研究揭示好斗聊天机器人的道德难题
兰卡斯特大学研究发现,大型语言模型在持续冲突情境中会逐步模仿人类的言语暴力,甚至在无礼程度上反超人类,这对人工智能安全与治理提出了新的伦理挑战。
研究:生成式人工智能或降低机器学习成本,却放大安全与隐私风险
论文指出,将生成式人工智能引入机器学习开发流程,虽可节省成本与人力,却可能削弱透明度与控制力,并增加网络攻击、数据泄露和偏见等风险。
研究:大型语言模型在内容审核中暗藏政治偏见
昆士兰大学团队发现,大型语言模型在扮演不同政治角色时,会在不显著影响整体准确率的前提下,引入稳定的一致性意识形态偏见,从而影响在线仇恨内容审核的公正性。
