Google DeepMind ha presentado la nueva versión de su modelo Genie, que integra la capacidad de generar entornos dinámicos más realistas con interacción en tiempo real durante varios minutos.
Los modelos Genie permiten crear mundos de simulación con capacidades cada vez más avanzadas para interacción de humanos o agentes de inteligencia artificial capacitados.
Genie 2 permitía generar con imagen 3 escenarios virtuales en tres dimensiones, con gran consistencia, de hasta un minuto de duración y que responden de forma inteligente a las acciones realizadas, identificando al personaje y moviéndolo correctamente.
Su sucesor, Genie 3, va un paso más allá e introduce la interacción en tiempo real, en simulaciones de mundos más realistas, de ecosistemas llenos de vida animal y vegetal, que permiten experimentar fenómenos naturales como el agua y la iluminación y la exploración.
Estos mundos se mantienen constantes durante varios minutos con una resolución de 720p, ya que, como explican desde Google DeepMind en un comunicado, se crean "fotograma a fotograma según la descripción del mundo y las acciones del usuario".
En lo que respecta a la controlabilidad, además de las entradas de navegación, con teclas de dirección, permite la interacción con indicaciones en texto, que da lugar a los eventos mundiales de programables, con los que se pueden introducir alteraciones y comprobar cómo los agentes de IA gestionan las situaciones inesperadas.
Aunque los mundos generados por Genie pueden ser controlados por humanos o agentes, en Google DeepMind ven su potencial para el entrenamiento de los estos últimos. La mayor consistencia que ofrece Genie 3 abre la puerta a secuencias más largas que impulsan la consecución de objetivos más complejos.
"No solo ofrece un amplio espacio para entrenar agentes como robots y sistemas autónomos, sino que también permite evaluar el rendimiento de los agentes y explorar sus debilidades", señalan en el comunicado.
Aun así, Genie 3 presenta limitaciones, ya que los agentes tienen un rango de acción restringido y tampoco se incorporado la interacción entre múltiples agentes independientes. Tampoco puede simular ubicaciones del mundo real con precisión y la duración de las interacciones se queda en unos pocos minutos.