AI看图进入“侦探”模式：谷歌Gemini让模型主动探索而非被动识别

面对一张复杂的电路板图片，传统AI模型可能会猜测板上的微小编号，而升级后的Gemini 3 Flash则会主动“拿起放大镜”——生成代码、裁剪区域、放大细节，直到看清每个字符。

2026年1月27日，谷歌DeepMind团队为Gemini 3 Flash模型引入了名为“Agentic Vision”（智能体视觉）的全新功能。

这项技术标志着AI图像理解从静态扫描向主动调查的范式转变。传统AI模型通常一次性地处理图像，如果错过微小细节，就只能依靠猜测。

01 技术变革

Agentic Vision的核心是一个“思考-行动-观察”的循环系统。这个闭环让AI不再是被动地接收像素信息，而是像调查员一样主动探索视觉内容。

当用户提出涉及图像的复杂问题时，模型首先分析查询内容和初始图像，制定多步骤处理计划，思考需要检查哪些区域、是否需要放大细节。

接着，模型会生成并执行Python代码直接操作图像本身，这可能包括裁剪特定区域、旋转图像获得正确方向、在画面上添加注解，或进行更高级的分析如计算物体数量、统计边界框、测量距离等。

这项功能在多个实际场景中展示了其价值。面对高密度数据表或图表时，模型能执行Python代码解析内容，并以可视化方式呈现发现。

在建筑规划验证平台PlanCheckSolver.com的实际应用中，通过启用Gemini 3 Flash的代码执行功能迭代检查高分辨率输入，其准确性提高了5%。

一个典型例子是当用户要求“计算手上的数字”时，Gemini 3 Flash会使用Python在识别的每个手指上绘制边界框和数字标签。这种“视觉便签”确保了最终答案基于对像素的完美理解。

根据官方测试数据，Agentic Vision为Gemini 3 Flash在多数视觉基准测试中带来5%到10%的质量提升。

视觉与代码执行结合

代理视觉让模型能够编写并执行Python代码来操作图像、提取信息、进行计算和可视化。例如，模型可以裁剪图像特定区域、计算物体数量、绘制边界框、生成图表等，使推理过程建立在可验证的视觉证据之上。

尤其在处理复杂视觉数学问题时，标准大型语言模型经常产生幻觉，而Gemini 3 Flash通过将计算卸载到确定性的Python环境中规避了这个问题。

这项能力目前已逐步推广到Gemini应用程序的“思维模式”（Thinking Mode）。对于开发者，它已通过Google AI Studio与Vertex AI的Gemini API开放使用。

开发者只需在API中启用代码执行功能，就能解锁许多新的视觉推理行为。谷歌表示，除了代码执行，未来的工具还将允许Gemini使用网络和反向图片搜索，进一步增强其对世界的理解。

这项功能也将扩展到其他Gemini模型。

此次发布恰逢AI视觉领域的激烈竞争期。就在同一天，中国的DeepSeek发布了DeepSeek-OCR2，该技术使AI能够像人类一样“按逻辑顺序阅读”。

这两项技术的对比凸显了当前视觉AI的两条发展路径：一条专注于模拟人类视觉注意力机制，另一条则强调通过代码执行与视觉内容互动。

DeepSeek试图教会AI如何“专注地看”，而谷歌则教AI如何“动手计算”。这场技术对决本质上是在重新定义“机器视觉”的未来方向。

目前，Gemini 3 Flash已能隐式决定何时放大微小细节，但对于旋转图像或进行视觉数学运算等功能，目前仍需要明确的提示触发。

当用户打开Gemini应用选择“思维模式”时，屏幕背后的AI已经开始了一场视觉探索之旅。它会为眼前的图像生成独特的调查计划，调用代码工具执行像素级操作，然后基于收集到的视觉证据构建答案。

谷歌工程团队正致力于在未来的更新中使这些行为完全隐式化，让AI的视觉调查更加自然流畅。