Google ha lanzado la vista previa de su nuevo modelo de inteligencia artificial (IA) Gemini 2.5 Computer Use, diseñado con capacidades para navegar e interactuar con páginas web y aplicaciones "haciendo clic", de cara a que los agentes puedan realizar tareas de forma autónoma interactuando directamente con el entorno visual, como el navegador web.
Actualmente, la mayoría de los modelos de IA pueden interactuar con 'software' de forma autónoma mediante API estructuradas. Sin embargo, Google ha subrayado que, "para muchas tareas digitales", aún se requiere la interacción directa con interfaces gráficas de usuario (IU). Por ejemplo, a la hora de rellenar y enviar un formulario.
Para que la IA pueda completar estas tareas, la compañía ha especificado que los agentes deben poder navegar por páginas web y aplicaciones "como lo hacen los humanos". Es decir, haciendo clic, escribiendo y desplazándose por la interfaz.
En este sentido, con el objetivo de avanzar hacia estas capacidades, Google ha lanzado la vista previa de Gemini 2.5 Computer Use que, basado en la comprensión y razonamiento visual de Gemini 2.5 Pro, permite a los agentes de IA interactuar con IU, con un alto control web y móvil.
Tal y como lo ha explicado en un comunicado en su blog, al comprender y razonar en base al contexto visual, este modelo puede visitar páginas web, desplazarse por la interfaz y buscar información, así como hacer clic en botones, rellenar y enviar formularios o arrastrar y soltar elementos, entre otras cuestiones.
Asimismo, está optimizado principalmente para navegadores web, aunque también se ha diseñado para tareas de control de interfaz de usuario móvil. No obstante, aún no está optimizado para el control a nivel de sistema operativo de escritorio, como ha aclarado Google.
Las capacidades principales del modelo están disponibles mediante la nueva herramienta 'computer_use' en la API de Gemini y utiliza como entradas la solicitud de tarea del usuario, una captura de pantalla del entorno y un historial de acciones recientes.
Así, el modelo analiza estas entradas y genera una respuesta que representa una acción de la interfaz de usuario, como hacer clic o escribir. No obstante, la respuesta también puede incluir una solicitud de confirmación del usuario para ciertas acciones, como realizar compras por la web. Además, todo ello está evaluado por un sistema de seguridad externo.
Google ha asegurado igualmente que Gemini 2.5 Computer Use ofrece un "excelente rendimiento" en diferentes pruebas de control web y móvil, superando las principales evaluaciones realizadas por Broserbase y evaluaciones propias de la tecnológica. Concretamente, las pruebas señalan que el modelo ofrece una alta precisión a la hora de controlar el navegador y, al mismo tiempo, mantiene una baja latencia.
"La capacidad de completar formularios de forma nativa, manipular elementos interactivos como menús desplegables y filtros, y operar tras inicios de sesión es un paso crucial en el desarrollo de agentes potentes y de propósito general", ha sentenciado la compañía.
Con todo, la vista previa de Gemini 2.5 Computer Use ya está disponible para desarrolladores a través de Google AI Studio y Vertex AI. Asimismo ya se ha utilizado para impulsar algunas funciones de agente en el Modo IA de Búsqueda y Project Mariner, la investigación que utiliza agentes de IA para realizar tareas por sí mismos en un navegador.