Google 发布 Gemma 4 的 Multi-Token Prediction:推理最高提速 3 倍,轻量草稿模型先写、大模型并行验算
Google 为开源模型家族 Gemma 4 推出 Multi-Token Prediction(MTP)drafters。通过“轻量草稿模型先预测、多 Token 并行验证”的架构,在不牺牲输出质量和推理逻辑的前提下,将推理速度最高提升至 3 倍,适用于低延迟聊天、语音应用、智能代理和端侧应用等场景。
Google 发布开源模型家族「Gemma 4」:基于 Gemini 3 技术,强化推理与 AI 智能体能力,采用 Apache 2.0 许可
Google 发布新一代开源模型家族 Gemma 4,基于 Gemini 3 研究成果,在推理能力、工具调用和智能体工作流方面大幅升级,并首次采用 Apache License 2.0,放宽商用与再分发限制。
