Microsoft ha presentado sus primeros modelos de inteligencia artificial de transcripción y generación de voz, que ya funcionan en servicios propios de la compañía como Copilot y Azure Speech, y forman parte de una estrategia dirigida a lanzar en 2027 los modelos de frontera más avanzados.
La compañía tecnológica ha lanzado bajo una modalidad de acceso anticipado público sus tres modelos más recientes: el generador de imágenes MAI-Image-2, el generador de voz MAI-Voice-1, y el nuevo generador de transcripciones MAI-Transcribe-1.
Mientras que MAI-Image-2 se presentó a mediados de marzo como un modelo capaz de generar resultados fotorrealistas profesionales a partir de texto, MAI-Transcribe-1 y MAI-Voice-1 son la primera generación de dos nuevos modelos con los que Microsoft pretende crear "una plataforma integral de IA de audio propia, diseñada específicamente para desarrolladores".
En este contexto, MAI-Transcribe-1 es un modelo de reconocimiento de voz de gran precisión, que tiene soporte para 25 idiomas. Microsoft ha destacado en su blog su eficiencia, ya que tiene un coste de GPU aproximadamente un 50 por ciento inferior al de las principales alternativas.
Se ha diseñado para ofrecer transcripciones y subtítulos en tiempo real de eventos en directo, asistentes virtuales, flujos de trabajo de centros de llamadas, reuniones y módulos de aprendizaje, entre otros casos de uso.
En lo que respecta a MAI-Voice-1, Microsoft asegura que es "ultrarrápido", ya que puede generar hasta 60 segundos de audio en menos de un segundo haciendo uso de una sola GPU. Actualmente impulsa experiencias de voz expresivas en las funciones de audio y pódcast de Copilot.
Los tres modelos se están utilizando ya en servicios de Microsoft Copilot, Bing, PowerPoint y Azure Speech, y pueden encontrarse en Playground y Foundry.
Estos modelos forman parte de la estrategia de Microsoft de desarrollo propio, con la que pretende crear modelos de vanguardia el próximo año para competir con empresas como OpenAI y Anthropic.
Según ha explicado el director ejecutivo de Microsoft AI, Mustafa Suleyman, en una entrevista con Bloomber, pretenden alcanzar "la frontera absoluta", y en 2027 se han puesto el objetivo de "llegar realmente a la última tecnología" en modelos que puedan responder o generar texto, imágenes y audio.