Gemini 3 Flash examina de manera activa las imágenes con la nueva visión agéntica

Archivado en: EstrategiaTech

Europa Press | miércoles, 28 de enero de 2026, 10:25

Recurso de visión agéntica en Gemini 3 Flash

Google ha mejorado la capacidad de Gemini 3 Flash para comprender imágenes con 'agentic vision' (visión agéntica), una característica con la que amplía inspecciona y manipula imágenes paso a paso antes de generar una respuesta para el usuario.

Gemini 3 Flash es una versión más rápida y de menor coste de Gemini 3, pensada para agilizar tareas cotidianas y flujos de trabajo con agentes de inteligencia artificial, que Google lanzó en diciembre.

La actualización de este modelo ha incorporado 'agentic vision' para resolver uno de los problemas que tienen los modelos a la hora de analizar imágenes. En lugar de procesar con un "solo vistazo estático" el contenido de una imagen, la nueva característica le permite adoptar un enfoque más activo para examinarla con detenimiento.

En concreto, y como explica Google en un comunicado, Gemini 3 Flash "introduce un ciclo de pensamiento, acción y observación en las tareas de comprensión de imágenes", y lo hace al combinar razonamiento visual con ejecución de código para "fundamentar las respuestas en evidencia visual".

Esto significa que el modelo establece un plan de varios pasos al analizar la consulta del usuario y la imagen. Posteriormente, genera y ejecuta código Python para manipular (ampliar, rotar, recortar o anotar) y analizar las imágenes. Con este proceso, la IA genera su una imagen transformada con nuevos datos para facilitar su comprensión y que inspecciona antes de generar una respuesta.

Gemini 3 Flash examina de manera activa las imágenes con la nueva visión agéntica

Lo más leído

europapress

Winamp se alía con Deezer para lanzar su servicio de música en 'streaming' premium en 2027

El texto de reforma de la prestación CUME incorpora su compatibilidad con prácticas formativas del menor

La UE planea incluir en agosto a ChatGPT y Roblox entre las plataformas en línea muy grandes (VLOP) de la DSA

El dueño de la Bolsa de Nueva York pagará 5.260 millones por la plataforma de bonos MarketAxess

Spotify lanza un modo 'running' con música adaptada al tempo y a las fases del entrenamiento