El nuevo modelo de audio de Xiaomi muestra una gran comprensión del contexto y ya se aplica en el hogar y el coche

|

Estrategia de Xiaomi


Xiaomi ha desarrollado un modelo de reconocimiento de audio que ha lanzado bajo la modalidad de código abierto, que ofrece una gran comprensión del contexto el usuario y que interactúa con lenguaje natural en aplicaciones para el hogar y el automóvil.



MiDashengLM es un modelo de reconocimiento de audio de Xiaomi que ha sido entrenado con subtítulos de audio generales que impulsan una comprensión del entorno más completa, ya que permiten capturar representaciones de voz, sonidos ambientales y elementos musicales.



De esta forma, y al contrario que los enfoques para el reconocimiento automático de voz (ASR), no descarta la música ni los sonidos ambientales ni pierde información que permite comprender lo que transmite la voz, como la emoción o las propiedades acústicas.



Para ello, ha sido entrenado con una colección de 38.662 horas de subtítulos de audio generales, recogidas en la base de datos ACAVCaps. MiDashengLM se basa, además, en el codificador Dasheng y está impulsado por el modelo Qwen2.5-Omni-7B Thinker de Alibaba.



MiDashengLM es un modelo de IA de audio que muestra una gran comprensión del entorno, al poder analizar la situación del usuario para dar una respuesta más humana, con lenguaje natural, como explica el medio especializado chino IT Home.



Xiaomi ha destacado el rendimiento de su nuevo modelo, que "proporciona una aceleración de hasta 4 veces en términos de tiempo hasta el primer token (TTFT) y un rendimiento hasta 20 veces mayor que los modelos comparables", como recoge en el informe técnico.



Actualmente, dispone de más de 30 aplicaciones para su uso en hogares y automóviles, con las que realiza la monitorización continua de sonidos anómalos para altavoces móviles la detección mejorada de arañazos con el modo centinela en el Xiaomi YU7.



MiDashengLM se ha publicado bajo una modalidad de código abierto, con licencia Apache 2.0, y está disponible en GitHub y Hugging Face.





europapress