Google 于 2026 年 2 月 19 日(当地时间)正式发布其最新一代大规模语言模型「Gemini 3.1 Pro」。
这款模型被 Google 定位为「复杂问题解决的新基准」,本质上是将研究模型 Gemini 3 Deep Think 的同一套核心智能能力,优化并扩展到更适合实际业务与大规模应用的形态,并开始面向普通用户、开发者和企业客户逐步开放。
复杂问题求解的「新基线」
在官方发布中,Google 将 Gemini 3.1 Pro 描述为:
our new baseline for complex problem-solving(复杂问题解决的新基准)
根据 Google 的说明,Gemini 3.1 Pro 与研究向模型 Gemini 3 Deep Think 共享同一核心推理能力,但在架构规模、性能与稳定性上进行了工程化调整,更适合:
- 面向终端用户的应用产品
- 开发者通过 API 构建的各类工具与服务
- 企业级生产环境中的关键业务系统
也就是说,过去仅限研究场景的高阶推理能力,开始以更可用、更可控的形式向更广泛的用户群体开放。
ARC-AGI-2 得分 77.1%:较 3 Pro 提升逾两倍
本次发布中最受关注的指标之一,是抽象推理基准测试 ARC-AGI-2 的成绩。
根据 DeepMind 公布的评测结果,Gemini 3.1 Pro 在 ARC-AGI-2 上取得了 77.1% 的得分(ARC Prize Verified),相比上一代 Gemini 3 Pro 的 31.1% 有大幅跃升。
ARC-AGI-2 主要用于评估模型在「未知逻辑模式」上的解题能力,更偏向抽象推理,而非依赖已有知识库的简单检索或记忆匹配,因此被视为衡量通用智能潜力的重要基准之一。
在公开的对比数据中:
- Gemini 3.1 Pro:77.1%
- Claude Opus 4.6:68.8%
- GPT-5.2:52.9%
Gemini 3.1 Pro 在该基准上处于领先位置。
Humanity’s Last Exam:综合能力位居第一梯队
在综合考察知识广度与推理能力的基准 Humanity’s Last Exam 上,Gemini 3.1 Pro 的得分为 44.4%。
在相同条件下的对比结果为:

- Gemini 3.1 Pro:44.4%
- Claude Sonnet 4.6:40.0%
- GPT-5.2:34.5%
从这一结果来看,Gemini 3.1 Pro 在综合知识与推理能力方面同样处于当前模型中的第一梯队。
SWE-bench Verified 80.6%:保持一线实务开发能力
在衡量软件开发与代码修改能力的基准 SWE-bench Verified 上,Gemini 3.1 Pro 的得分为 80.6%。
这一成绩与 Claude Opus 4.6 的 80.8% 基本处于同一水平,说明在显著提升抽象推理能力的同时,Gemini 3.1 Pro 仍然保持了强劲且稳定的工程与编码实务能力。
换言之,它并非以牺牲代码能力为代价来换取推理性能,而是在两者之间取得了较为平衡的表现。
应用示例:从 ISS 追踪到 3D 群体仿真
Google 还展示了多组基于 Gemini 3.1 Pro 的应用示例,用以体现其在推理、代码生成与多模态理解方面的综合能力,包括:
- 使用公开 API 构建国际空间站(ISS)的实时追踪仪表盘
- 从文本提示自动生成动画 SVG 图像
- 构建可对手部动作做出反应的交互式 3D 「椋鸟群」仿真
- 生成带有小说《呼啸山庄》氛围风格的作品集(Portfolio)界面
在开发者社区中,「骑自行车的鹈鹕」动画 SVG 一直是用来对比不同模型代码生成与结构化表达质量的经典题材之一。Google 也用这一题材对比了 Gemini 3 Pro 与 Gemini 3.1 Pro 的表现。
在公开的对比图中:
- Gemini 3 Pro 生成的动画中,自行车踏板虽然会转动,但鹈鹕的腿部动作与踏板并未形成正确的联动;
- Gemini 3.1 Pro 生成的版本中,鹈鹕的双腿被正确地放置在踏板位置,并能与踏板转动保持协调运动。
这一细节展示了新模型在空间关系理解、约束条件处理以及多步骤代码生成上的进步。
提供方式与接入渠道
Gemini 3.1 Pro 将自发布日起分阶段向不同用户群体开放,覆盖从个人到企业的多种使用场景:
-
面向普通用户:
- 可在 Gemini App 中直接使用
- 可在 NotebookLM 中用于知识整理与长文档推理
-
面向开发者:
- 通过 Gemini API(预览版) 提供访问
- 可在 Google AI Studio 中进行测试与集成
- 支持通过 Gemini CLI、Android Studio 等开发工具接入
-
面向企业与机构:
- 可通过 Vertex AI 集成到现有云端工作负载
- 可在 Gemini Enterprise 方案中作为核心模型使用
通过上述多层次的提供方式,Google 试图将「Deep Think 级」的推理能力,从研究环境扩展到更广泛的生产与业务场景中,使其成为复杂问题求解的新基础设施之一。
