Meta ha presentado un conjunto de modelos fundacionales que recoge bajo el nombre de Meta Movie Gen, con los que ofrece a los creadores herramientas para generar, personalizar y editar vÃdeos y producir audios, todos de alta calidad y con descripciones de texto.
Meta Movie Gen es la tercera generación de modelos fundacionales de Meta, que la compañÃa dirige a creadores de contenido y cineastas como una herramienta que ayude a impulsar su creatividad, en lugar de sustituirla.
Los modelos que incluye se han entrenado con conjuntos de datos con licencia y otros disponibles públicamente, para ofrecer cuatro capacidades: generación de vÃdeo, generación de vÃdeo personalizada, edición de vÃdeo precisa y generación de audio.
En lo que respecta a la generación de vÃdeo, el modelo utiliza un transformador de 30.000 millones de parámetros para producir vÃdeos de alta calidad de hasta 16 segundos para una velocidad de 16 fotogramas por segundo, a partir de una descripción de texto.
Como indica Meta, el modelo "puede razonar sobre el movimiento de objetos, las interacciones entre sujetos y objetos y el movimiento de la cámara, y puede aprender movimientos plausibles para una amplia variedad de conceptos", como recoge en su blog oficial.
Los modelos de Meta Movie Gen también generan de vÃdeos personalizados, a partir de la imagen de una persona y una descripción. A ello se unen la capacidad de editar, con acciones localizadas o más generales, y resultados precisos.
Meta Movie Gen también genera audio. En concreto, utiliza un modelo de 13.000 millones de parámetros que genera vÃdeo de alta calidad para un vÃdeo y a partir de una descripción en texto. El resultado tiene una duración de hasta 45 segundos y engloba sonido ambiental, efectos de sonido y música instrumental de fondo. Este modelo también permite generar audio coherente para vÃdeos de duraciones arbitrarias.