Google DeepMind 发布文本扩散模型 DiffusionGemma:文本生成速度最高提升至 4 倍

richlovec 1500_400 (1)
 

Google DeepMind 于 2026 年 6 月 10 日(美国时间)发布了一款实验性的开源文本生成模型 DiffusionGemma。该模型将原本主要用于图像生成的扩散模型思路迁移到文本领域,在 GPU 上实现了最高可达约 4 倍的生成加速。

DiffusionGemma 基于 Google 的开源模型家族 Gemma 4,并结合了在语言生成扩散模型方向上的研究成果 Gemini Diffusion 打造而成。它是一个参数规模为 26B 的 Mixture of Experts(MoE) 模型,以 Apache 2.0 许可证开源。

Google 将 DiffusionGemma 定位为:

  • 适合在本地环境中运行的低延迟对话式 AI 应用
  • 支持内联编辑(inline editing)
  • 代码补全与代码“打补丁”式生成
  • 生成非线性文本结构(如带占位、带约束的文本片段)

不再逐 token 生成,而是并行生成“文本块”

传统的大型语言模型通常采用**自回归(autoregressive)**方式,从左到右一次生成一个 token。DiffusionGemma 则采用不同的生成范式:

  • 不是按 token 顺序生成,而是一次性生成一个文本块(block)
  • 然后通过多轮迭代,对这个块进行并行修正与精炼

DiffusionGemma 被设计为在速度与性能之间取得平衡的文本扩散模型

updated-Intelligence_vs_Latency_.width-1000.format-webp.webp

根据 Google Developers Blog 面向开发者的介绍,DiffusionGemma 使用长度为 256 token 的“canvas”(画布) 作为生成区域:

  • 初始状态下,canvas 中填充的是随机的占位 token
  • 模型在整个 canvas 上并行地将这些占位符逐步“打磨”成有意义的文本

当需要生成更长的文本时,DiffusionGemma 采用所谓的 “block-autoregressive” 方式:

  1. 先生成并确定第一个 256 token 的文本块
  2. 再在此基础上继续生成下一个 256 token 块
  3. 以此类推,块与块之间仍然是自回归式推进,但块内部是并行扩散式生成

这种机制可以更充分地利用 GPU 的算力,而不是受限于传统自回归模型中逐 token 推理带来的内存带宽瓶颈。Google 给出的性能数据包括:

  • 单张 NVIDIA H100 上可实现 每秒超过 1000 token 的生成速度
  • 单张 NVIDIA GeForce RTX 5090 上可实现 每秒超过 700 token 的生成速度

支持双向上下文,生成过程中可自我修正

DiffusionGemma 的另一大特点是:在生成过程中,模型可以双向查看整个文本块的上下文

在传统自回归模型中:

  • 模型只能基于“已经生成的过去 token”来预测下一个 token
  • 已经输出的 token 通常被视为固定,不会在同一轮生成中被整体回溯和修改

而在 DiffusionGemma 中:

  • 同一 canvas 内的各个 token 可以相互参照
  • 模型可以在多轮扩散迭代中,反复调整低置信度的部分
  • 从而在整体一致性局部细节之间进行权衡与修正

Google 指出,这种特性在以下场景中尤为有利:

  • 文本的内联编辑(例如在中间插入或修改一段内容)
  • 代码补全、代码空洞填充(code infilling)
  • 类似数独这类约束条件较强的任务,需要在全局约束下调整局部内容

由于生成过程不必“锁死”已输出的 token,模型可以在扩散迭代中不断替换不可靠的片段,使最终输出更加符合整体语义与约束条件。


26B MoE 架构,推理时仅激活约 3.8B 参数

根据 Google AI for Developers 公布的模型卡信息,DiffusionGemma 具备以下关键规格:

  • 基于 Gemma 4 的 26B A4B MoE 架构
  • 总参数量约 25.2B
  • 推理时实际激活的参数约 3.8B(典型的 MoE 稀疏激活特性)
  • 最大上下文长度(context length)为 256K token
  • 单个 canvas 长度为 256 token

在部署层面,DiffusionGemma 也针对本地运行做了优化:

  • 支持量化后部署在高性能消费级 GPU 上
  • Google 表示,在 18GB VRAM 以内即可运行
  • 适合作为本地低延迟 AI 应用的模型基础,尤其适合个人开发者或小团队在本地环境中构建应用

速度优先的实验模型,质量优先仍推荐标准 Gemma 4

Google 明确强调,DiffusionGemma 是一款以速度和并行生成为优先目标的实验性模型。在输出质量方面:

  • 标准的 Gemma 4 仍然是面向生产环境的主要参考基线
  • 对于极致质量要求的应用,Google 仍建议优先使用标准 Gemma 4

DiffusionGemma 与 Gemma 4 26B A4B 的速度与基准测试对比显示:

  • 在生成速度上,DiffusionGemma 具有明显优势
  • 在部分质量指标上,Gemma 4 依然表现更好
diffusiongemma__benchmark__bar_l.width-1000.format-webp.webp

此外,DiffusionGemma 的高速度优势在以下场景中尤为明显:

  • 使用专用 GPU 进行本地推理
  • **小批量(small batch)**请求场景,如个人助手、IDE 内代码补全

而在大规模云端服务中:

  • 传统自回归模型可以通过大批量请求并行来摊薄开销
  • 因此 DiffusionGemma 的优势会更依赖具体的部署方式和业务场景

开源与生态支持

DiffusionGemma 已在 Hugging Face 上公开模型权重,开发者可以通过多种推理框架进行使用,包括:

  • vLLM
  • Hugging Face Transformers
  • SGLang
  • MLX(适用于 Apple 生态)

同时,Google 也在 GitHub 上公开了训练与推理的示例与配方(recipes),方便开发者:

  • 直接进行推理测试
  • 在自有数据上进行微调(fine-tuning)
  • 探索文本扩散模型在更多任务上的应用可能性

分享:


发表评论

登录后才可评论。 去登录