Anthropic确认Claude遭遇“大规模蒸馏攻击”:DeepSeek、Moonshot、MiniMax被指不当抽取能力,约2.4万账号发起超1600万次交互

richlovec 1500_400 (1)
 

美国人工智能公司 Anthropic 于 2026 年 2 月 23 日(当地时间)宣布,已确认有人针对其大规模语言模型(LLM)Claude 发动了“工业规模(industrial-scale)”的能力蒸馏攻击,通过不正当方式大批量抽取模型能力,并将其用于竞争模型的训练和优化。

被定义为“工业级”的不正蒸馏

Anthropic 表示,此次被检测到的活动,核心是大规模收集 Claude 的输出结果,再将这些数据用于其他模型的改进或训练。公司将这一行为界定为“illicit distillation(不正蒸馏)”,明确指出其违反了 Anthropic 的使用条款以及地区访问限制规定。

根据官方披露,本次事件的规模包括:

  • 约 24,000 个异常或不正当使用的账号
  • 累计超过 1,600 万条对话记录
  • 点名涉及 3 家中国系 AI 实验室:DeepSeek、Moonshot AI、MiniMax

Anthropic 解释称,单条提示词或单次对话往往与正常使用难以区分,但当同类请求在数万、数十万次的量级上被重复发起时,其蒸馏意图就会变得非常明显。

三家实验室各自的活动特征

Anthropic 在通报中分别描述了三家公司的具体行为模式和重点目标。

  • DeepSeek
    • 累计对话量超过约 15 万条
    • 重点抽取 Claude 的推理能力,并用于打分、评估等类似“奖励模型”的用途
    • 还被发现尝试生成对敏感问题的回答
    • 存在专门诱导 Claude 输出 chain-of-thought(思维链 / 思考过程)的提示词
  • Moonshot AI
    • 累计对话量超过约 340 万条
    • 目标包括:面向智能体(agent)的推理能力、工具调用、代码生成、计算机操作型智能体、视觉相关功能等
    • 在后期阶段,还尝试抽取更完整的推理轨迹(reasoning traces)
  • MiniMax
    • 累计对话量超过约 1,300 万条,是三者中规模最大
    • 主要集中在智能体式编码、工具调用以及复杂任务编排(orchestration)能力的抽取
    • Anthropic 称在活动进行中就已成功识别并持续追踪其行为生命周期
    • 还观察到:每当 Anthropic 发布新模型版本后,对应流量会在 24 小时内迅速切换到新模型

攻击手法:被称为“hydra cluster”的分布式账号网络

Anthropic 强调,公司目前并未在中国境内提供商业化服务,但通过商业代理和中转服务,一些第三方将访问权限进行转售,进而搭建起大规模的异常账号网络。Anthropic 将这种结构化的账号与流量集群称为“hydra cluster”。

在部分案例中,一个单一的网络实体就能同时操控超过 2 万个不正当账号,通过将请求流量高度分散到不同账号和 IP 上,以此规避常规的风控与检测机制。

安全能力被“剥离”的潜在风险

Anthropic 警告称,通过不正蒸馏方式训练出来的模型,很可能无法完整继承原始模型中精心设计的安全机制和使用限制。这意味着:

  • 原模型在网络攻击、网络武器化使用方面的防护能力可能被削弱或完全缺失
  • 围绕生物安全、生物武器相关信息的严格限制也可能在蒸馏过程中被“剥离”

公司进一步指出,这类被不当蒸馏出的模型,存在被用于军事、监控等敏感场景的风险;一旦被开源或广泛传播,其潜在危害将更难控制。

Anthropic的应对:强化检测与行业协作

针对本次事件,Anthropic 表示已采取多项技术与运营层面的应对措施,包括:

  • 利用分类器和“行为指纹(behavioral fingerprinting)”技术识别蒸馏行为模式
  • 专门识别试图抽取 chain-of-thought(思维链 / 推理过程)的提示与交互模式
  • 封禁和清理大规模不正当账号
  • 与其他 AI 实验室、云服务提供商及相关监管机构共享情报和技术线索
  • 强化用户身份验证与合规审查
  • 在模型与 API 层面设计新的防御机制,降低不正蒸馏的效率和可行性

Anthropic 表示,这类问题“并非单一公司可以独自解决”,呼吁整个行业在技术、规则和执法层面展开更紧密的协作。

与出口管制的关联:蒸馏绕过风险

在通报中,Anthropic 还提到,不正蒸馏攻击可能削弱现有出口管制措施的效果。即便对高端算力芯片的出口进行限制,如果缺乏对这类蒸馏活动的有效监管,相关方仍可能通过远程调用先进模型、再进行大规模蒸馏,间接获得接近顶级模型的能力。

Anthropic 认为,对高性能芯片和算力的管制,不仅有助于限制直接的大规模模型训练,也有助于抑制此类工业化蒸馏活动的扩张。

公司表示,此次公开披露的目的,是“分享证据,让整个行业能够共同应对”。Anthropic 将继续对类似行为进行监测,并迭代防御措施。


分享:


发表评论

登录后才可评论。 去登录