Google为Gemini 3 Flash加入高精度图像理解功能「Agentic Vision」，通过Python再检视图像将质量提升5〜10%

AI 2026-02-04 Google, Gemini 3 Flash, Agentic Vision, 图像理解, 生成式AI 26 次浏览

Google于2026年1月27日宣布，在其AI模型「Gemini 3 Flash」中新增高精度图像理解功能「Agentic Vision」。与传统“一次性解析图像并直接回答”的方式不同，Agentic Vision让模型能够主动规划处理步骤，在需要时对图像进行放大、裁剪和重新检查，从而基于更充分的视觉证据给出回答。

Agentic Vision目前通过 Google AI Studio 和 Vertex AI 的 Gemini API 提供，现阶段被定位为 Gemini 3 Flash 专属功能。

从“一次性识别”到“分阶段验证”的图像理解

Agentic Vision 的核心特点，是将图像理解从静态的一次性识别，转变为多轮、可回溯的验证过程。模型不会在首次看到图像时就立即给出最终答案，而是会反复执行以下循环：

判断需要重点检查的图像区域
选择并执行相应的操作（如放大、裁剪、重新解析）
观察操作结果，再决定下一步行动

Google将这一过程概括为「Think（思考/规划）→ Act（行动/执行）→ Observe（观察/再判断）」的循环推理框架。

视觉推理与 Python 代码执行的深度结合

在技术实现上，Agentic Vision 的中枢是“视觉推理 + Python 代码执行”的一体化设计。

图）Agentic Vision 的处理流程：在接收到用户输入（图像 + 文本）后，AI 代理会围绕「Think（计划）→ Act（代码执行）→ Observe（结果确认）」不断循环，对图像进行放大、裁剪、标注等操作。Gemini 3 Flash 将基于 Python 的图像处理能力直接嵌入推理过程之中。

agentic-vision-gemini-3_flash_bl.width-1000.format-webp_z5u5YjZ.webp

在 Agentic Vision 中，模型可以自主生成并执行 Python 代码，用于完成例如：

裁剪并放大图像的局部区域
对特定区域进行二次或多次解析
从图像中提取数值数据并进行计算

通过在代码执行环境中完成这些操作，模型的推理过程变得更加严谨，有助于减少误识别。根据 Google 的说明，在多项视觉相关基准测试中，引入这一机制后，整体质量提升约 5〜10%。

图）Agentic Vision 对视觉基准测试性能的影响：在 Gemini 3 Flash 中启用代码执行（with code execution）的配置后，在多数图像理解类基准测试中，得分较传统配置提升了约 5〜10%。Google认为，将图像的再检视和标注过程纳入推理链条，是精度提升的关键因素之一。

agentic-vision-gemini-3_flash_bl.width-1000.format-webp_COEe0gZ.webp

放大、标注与可视化：Agentic Vision 能做什么

从功能上看，Agentic Vision 主要带来了以下三类能力：

放大与再检视：当模型检测到存在小字号文字、远景目标等初次解析不充分的内容时，会主动放大相关区域并重新分析。
直接在图像上标注：模型可以在图像上绘制边界框、添加标签，明确标出目标的位置和数量，从而让回答的视觉依据更加直观可见。
视觉信息的计算与图表化：对于图像中的表格或数值信息，模型不仅能读取，还可以进行计算处理，并将结果以图表形式输出。

这些操作均由模型在推理过程中“按需触发”，即当模型判断有助于提高答案可靠性时，才会自动执行相应步骤。

在 Google AI Studio 与 Vertex AI 中提供，现为 Flash 专属

开发者可以在 Google AI Studio 以及 Vertex AI 的 Gemini API 中使用 Agentic Vision。只需在调用时启用代码执行功能，即可将这一针对图像的多阶段验证流程集成到自己的应用中。

根据官方文档，目前 Agentic Vision 仅面向 Gemini 3 Flash 提供，尚未开放给其他 Gemini 系列模型。

面向业务场景的高可靠图像理解

Google 将 Agentic Vision 定位为“面向业务使用的高可靠图像理解能力”，而不仅仅是单纯提升图像识别精度的技术升级。

在实际应用设想中，Google 特别提到以下场景：

读取仪表盘、仪器上的刻度与数值
解析以图片形式保存的表格数据
进行数量核对、盘点等对准确性要求极高的任务

通过引入“多轮验证 + 代码执行”的机制，Google 试图让 Gemini 3 Flash 在这些对精度和可解释性要求较高的业务场景中，提供更值得信赖的图像理解能力。

发表评论

登录后才可评论。去登录