Google DeepMind 发布文本扩散模型 DiffusionGemma：文本生成速度最高提升至 4 倍

AI 2026-06-15 Google DeepMind, DiffusionGemma, 大模型, 扩散模型, 开源模型 1 次浏览

Google DeepMind 于 2026 年 6 月 10 日（美国时间）发布了一款实验性的开源文本生成模型 DiffusionGemma。该模型将原本主要用于图像生成的扩散模型思路迁移到文本领域，在 GPU 上实现了最高可达约 4 倍的生成加速。

DiffusionGemma 基于 Google 的开源模型家族 Gemma 4，并结合了在语言生成扩散模型方向上的研究成果 Gemini Diffusion 打造而成。它是一个参数规模为 26B 的 Mixture of Experts（MoE） 模型，以 Apache 2.0 许可证开源。

Google 将 DiffusionGemma 定位为：

适合在本地环境中运行的低延迟对话式 AI 应用
支持内联编辑（inline editing）
代码补全与代码“打补丁”式生成
生成非线性文本结构（如带占位、带约束的文本片段）

不再逐 token 生成，而是并行生成“文本块”

传统的大型语言模型通常采用**自回归（autoregressive）**方式，从左到右一次生成一个 token。DiffusionGemma 则采用不同的生成范式：

不是按 token 顺序生成，而是一次性生成一个文本块（block）
然后通过多轮迭代，对这个块进行并行修正与精炼

DiffusionGemma 被设计为在速度与性能之间取得平衡的文本扩散模型：

updated-Intelligence_vs_Latency_.width-1000.format-webp.webp

根据 Google Developers Blog 面向开发者的介绍，DiffusionGemma 使用长度为 256 token 的“canvas”（画布） 作为生成区域：

初始状态下，canvas 中填充的是随机的占位 token
模型在整个 canvas 上并行地将这些占位符逐步“打磨”成有意义的文本

当需要生成更长的文本时，DiffusionGemma 采用所谓的 “block-autoregressive” 方式：

先生成并确定第一个 256 token 的文本块
再在此基础上继续生成下一个 256 token 块
以此类推，块与块之间仍然是自回归式推进，但块内部是并行扩散式生成

这种机制可以更充分地利用 GPU 的算力，而不是受限于传统自回归模型中逐 token 推理带来的内存带宽瓶颈。Google 给出的性能数据包括：

单张 NVIDIA H100 上可实现 每秒超过 1000 token 的生成速度
单张 NVIDIA GeForce RTX 5090 上可实现 每秒超过 700 token 的生成速度

支持双向上下文，生成过程中可自我修正

DiffusionGemma 的另一大特点是：在生成过程中，模型可以双向查看整个文本块的上下文。

在传统自回归模型中：

模型只能基于“已经生成的过去 token”来预测下一个 token
已经输出的 token 通常被视为固定，不会在同一轮生成中被整体回溯和修改

而在 DiffusionGemma 中：

同一 canvas 内的各个 token 可以相互参照
模型可以在多轮扩散迭代中，反复调整低置信度的部分
从而在整体一致性和局部细节之间进行权衡与修正

Google 指出，这种特性在以下场景中尤为有利：

文本的内联编辑（例如在中间插入或修改一段内容）
代码补全、代码空洞填充（code infilling）
类似数独这类约束条件较强的任务，需要在全局约束下调整局部内容

由于生成过程不必“锁死”已输出的 token，模型可以在扩散迭代中不断替换不可靠的片段，使最终输出更加符合整体语义与约束条件。

26B MoE 架构，推理时仅激活约 3.8B 参数

根据 Google AI for Developers 公布的模型卡信息，DiffusionGemma 具备以下关键规格：

基于 Gemma 4 的 26B A4B MoE 架构
总参数量约 25.2B
推理时实际激活的参数约 3.8B（典型的 MoE 稀疏激活特性）
最大上下文长度（context length）为 256K token
单个 canvas 长度为 256 token

在部署层面，DiffusionGemma 也针对本地运行做了优化：

支持量化后部署在高性能消费级 GPU 上
Google 表示，在 18GB VRAM 以内即可运行
适合作为本地低延迟 AI 应用的模型基础，尤其适合个人开发者或小团队在本地环境中构建应用

速度优先的实验模型，质量优先仍推荐标准 Gemma 4

Google 明确强调，DiffusionGemma 是一款以速度和并行生成为优先目标的实验性模型。在输出质量方面：

标准的 Gemma 4 仍然是面向生产环境的主要参考基线
对于极致质量要求的应用，Google 仍建议优先使用标准 Gemma 4

DiffusionGemma 与 Gemma 4 26B A4B 的速度与基准测试对比显示：

在生成速度上，DiffusionGemma 具有明显优势
在部分质量指标上，Gemma 4 依然表现更好

diffusiongemma__benchmark__bar_l.width-1000.format-webp.webp

此外，DiffusionGemma 的高速度优势在以下场景中尤为明显：

使用专用 GPU 进行本地推理
**小批量（small batch）**请求场景，如个人助手、IDE 内代码补全

而在大规模云端服务中：

传统自回归模型可以通过大批量请求并行来摊薄开销
因此 DiffusionGemma 的优势会更依赖具体的部署方式和业务场景

开源与生态支持

DiffusionGemma 已在 Hugging Face 上公开模型权重，开发者可以通过多种推理框架进行使用，包括：

vLLM
Hugging Face Transformers
SGLang
MLX（适用于 Apple 生态）

同时，Google 也在 GitHub 上公开了训练与推理的示例与配方（recipes），方便开发者：

直接进行推理测试
在自有数据上进行微调（fine-tuning）
探索文本扩散模型在更多任务上的应用可能性

发表评论

登录后才可评论。去登录