AI看图进入“侦探”模式:谷歌Gemini让模型主动探索而非被动识别

发布时间:2026-01-28 点击次数:54

AI看图进入“侦探”模式:谷歌Gemini让模型主动探索而非被动识别

面对一张复杂的电路板图片,传统AI模型可能会猜测板上的微小编号,而升级后的Gemini 3 Flash则会主动“拿起放大镜”——生成代码、裁剪区域、放大细节,直到看清每个字符。

2026年1月27日,谷歌DeepMind团队为Gemini 3 Flash模型引入了名为“Agentic Vision”(智能体视觉)的全新功能。

这项技术标志着AI图像理解从静态扫描向主动调查的范式转变。传统AI模型通常一次性地处理图像,如果错过微小细节,就只能依靠猜测。


01 技术变革

Agentic Vision的核心是一个“思考-行动-观察”的循环系统。这个闭环让AI不再是被动地接收像素信息,而是像调查员一样主动探索视觉内容。

当用户提出涉及图像的复杂问题时,模型首先分析查询内容和初始图像,制定多步骤处理计划,思考需要检查哪些区域、是否需要放大细节。

接着,模型会生成并执行Python代码直接操作图像本身,这可能包括裁剪特定区域、旋转图像获得正确方向、在画面上添加注解,或进行更高级的分析如计算物体数量、统计边界框、测量距离等。

02 实际应用

这项功能在多个实际场景中展示了其价值。面对高密度数据表或图表时,模型能执行Python代码解析内容,并以可视化方式呈现发现。

在建筑规划验证平台PlanCheckSolver.com的实际应用中,通过启用Gemini 3 Flash的代码执行功能迭代检查高分辨率输入,其准确性提高了5%。

一个典型例子是当用户要求“计算手上的数字”时,Gemini 3 Flash会使用Python在识别的每个手指上绘制边界框和数字标签。这种“视觉便签”确保了最终答案基于对像素的完美理解。

03 性能提升

根据官方测试数据,Agentic Vision为Gemini 3 Flash在多数视觉基准测试中带来5%到10%的质量提升。

视觉与代码执行结合

代理视觉让模型能够编写并执行Python代码来操作图像、提取信息、进行计算和可视化。例如,模型可以裁剪图像特定区域、计算物体数量、绘制边界框、生成图表等,使推理过程建立在可验证的视觉证据之上。

尤其在处理复杂视觉数学问题时,标准大型语言模型经常产生幻觉,而Gemini 3 Flash通过将计算卸载到确定性的Python环境中规避了这个问题。

04 生态整合

这项能力目前已逐步推广到Gemini应用程序的“思维模式”(Thinking Mode)。对于开发者,它已通过Google AI Studio与Vertex AI的Gemini API开放使用。

开发者只需在API中启用代码执行功能,就能解锁许多新的视觉推理行为。谷歌表示,除了代码执行,未来的工具还将允许Gemini使用网络和反向图片搜索,进一步增强其对世界的理解。

这项功能也将扩展到其他Gemini模型。

05 行业影响

此次发布恰逢AI视觉领域的激烈竞争期。就在同一天,中国的DeepSeek发布了DeepSeek-OCR2,该技术使AI能够像人类一样“按逻辑顺序阅读”。

这两项技术的对比凸显了当前视觉AI的两条发展路径:一条专注于模拟人类视觉注意力机制,另一条则强调通过代码执行与视觉内容互动。

DeepSeek试图教会AI如何“专注地看”,而谷歌则教AI如何“动手计算”。这场技术对决本质上是在重新定义“机器视觉”的未来方向。


目前,Gemini 3 Flash已能隐式决定何时放大微小细节,但对于旋转图像或进行视觉数学运算等功能,目前仍需要明确的提示触发。

当用户打开Gemini应用选择“思维模式”时,屏幕背后的AI已经开始了一场视觉探索之旅。它会为眼前的图像生成独特的调查计划,调用代码工具执行像素级操作,然后基于收集到的视觉证据构建答案。

谷歌工程团队正致力于在未来的更新中使这些行为完全隐式化,让AI的视觉调查更加自然流畅。