Gemini 3 Flash examina de manera activa las imágenes con la nueva visión agéntica

|

Recurso de visión agéntica en Gemini 3 Flash


Google ha mejorado la capacidad de Gemini 3 Flash para comprender imágenes con 'agentic vision' (visión agéntica), una característica con la que amplía inspecciona y manipula imágenes paso a paso antes de generar una respuesta para el usuario.



Gemini 3 Flash es una versión más rápida y de menor coste de Gemini 3, pensada para agilizar tareas cotidianas y flujos de trabajo con agentes de inteligencia artificial, que Google lanzó en diciembre.



La actualización de este modelo ha incorporado 'agentic vision' para resolver uno de los problemas que tienen los modelos a la hora de analizar imágenes. En lugar de procesar con un "solo vistazo estático" el contenido de una imagen, la nueva característica le permite adoptar un enfoque más activo para examinarla con detenimiento.



En concreto, y como explica Google en un comunicado, Gemini 3 Flash "introduce un ciclo de pensamiento, acción y observación en las tareas de comprensión de imágenes", y lo hace al combinar razonamiento visual con ejecución de código para "fundamentar las respuestas en evidencia visual".



Esto significa que el modelo establece un plan de varios pasos al analizar la consulta del usuario y la imagen. Posteriormente, genera y ejecuta código Python para manipular (ampliar, rotar, recortar o anotar) y analizar las imágenes. Con este proceso, la IA genera su una imagen transformada con nuevos datos para facilitar su comprensión y que inspecciona antes de generar una respuesta.





europapress