Alibaba presenta Qwen VLo, su nuevo modelo de creación de imágenes basado en una técnica de generación progresiva

|

Archivo - El nuevo modelo de generación de imágenes de Alibaba, Qwen VLo.

Alibaba ha presentado su nuevo modelo de Inteligencia Artificial (IA) Qwen VLo, con capacidades de comprensión y generación de contenido multimodal, ideado para generar y modificar imágenes de alta calidad a partir de entradas de texto, con una técnica de generación progresiva.



La tecnológica china lanzó el último integrante de su familia de modelos de lenguaje grande (LLM) multimodales, Qwen2.5-VL, en enero de este año, subrayando sus habilidades para analizar documentos, comprender vídeos de larga duración y ejecutar tareas de forma autónoma. Tras ello, ha continuado trabajando en la mejora de la capacidad del modelo para comprender el contenido de las imágenes.



Como resultado, Alibaba ha presentado su nuevo modelo unificado de comprensión y generación multimodal Qwen VLo, ideado para generar y modificar imágenes de alta calidad de forma sencilla, a partir de entradas de texto y mediante un proceso de generación progresiva.



Según ha matizado la compañía en un comunicado en su blog, este modelo actualizado "no solo comprende el mundo", sino que también genera recreaciones de alta calidad basadas en dicha capacidad de comprensión, "acortando la percepción y la creación". Es decir, se trata de un modelo que entiende lo que ve y crea contenido en base a dicha realidad.



En este sentido, los usuarios pueden lanzar una solicitud en forma de texto con lenguaje natural para que Qwen VLo genere una imagen nueva, así como compartir una o varias fotografía reales y pedir que las modifique indicando las características que se desean cambiar.



Para llevar a cabo estas tareas, Qwen VLo se basa en un método de generación progresiva. Esto es, un sistema mediante el que construye gradualmente la imagen completa, de izquierda a derecha y de arriba a abajo, a partir de una estructura básica o imagen borrosa, según ha explicado Alibaba. Por tanto, el modelo genera el contenido agregando capas, colores y texturas.



Así, este proceso permite generar el contenido perfeccionando y optimizando continuamente las predicciones del modelo a medida que construye la imagen, de manera que consigue garantizar que el resultado final sea "coherente y armonioso". Además, ofrece resultados de mejor calidad visual y una experiencia creativa "más flexible y controlable" para los usuarios, ya que pueden observar y ajustar el proceso de creación en tiempo real en base a sus necesidades.



Con todo ello, Alibaba ha destacado las mejoras integrales tanto en comprensión multimodal, a la hora de procesar texto, imágenes, audio y vídeo, como en las capacidades de generación que ofrece con Qwen VLo.



Según ha indicado, los modelos multimodales anteriores "solían presentar inconsistencias semánticas durante el proceso de generación", como la imposibilidad de conservar las características estructurales clave de la imagen original, sin embargo, Qwen VLo puede capturar dichos detalles y mantiene un "alto nivel de consistencia semántica" durante todo el proceso.



Esto permite que los usuarios puedan proporcionar instrucciones creativas en lenguaje natural, incluyendo referencias de estilo artístico o retoques detallados, y el modelo los gestiona "con facilidad". Por ejemplo, modificar objetos, editar texto y cambiar fondos, todo con un solo comando.



Por el momento, Alibaba ha señalado que Qwen VLo se ha lanzado en formato de versión preliminar, por lo que los usuarios pueden comenzar a probar sus habilidades para generar imágenes a través del chat Qwen. Asimismo, Qwen VLo admite varios idiomas, incluyendo chino e inglés.




europapress