Intel y el Instituto de Ciencias Weizmann han presentado un avance en la decodificación especulativa, un nuevo método de gestión de algoritmos de inteligencia artificial (IA) que permite multiplicar por 2,8 la inferencia de los grandes modelos de lenguaje (LLM).
La decodificación especulativa es una técnica de optimización de inferencias diseñada para que los modelos de aprendizaje profundo (LMR) sean más rápidos y eficientes a la hora de resolver solicitudes, sin comprometer la precisión.
Esta técnica funciona combinando un modelo pequeño y rápido que genera la respuesta, con uno más grande y preciso que la comprueba y valida. Sin embargo, puede ocasionar dificultades cuando se utiliza con distintos vocabularios.
En este marco, investigadores de Intel y del Instituto de Ciencias Weizmann han hallado un nuevo procedimiento con el que permiten aumentar en hasta 2,8 veces la velocidad de inferencia de los LLM, al facilitar la decodificación especulativa en modelos heterogéneos.
La tecnológica ha dado a conocer este avance en el marco de la Conferencia Internacional sobre Aprendizaje Automático (ICML), celebrada en Vancouver (Canadá), que permite que cualquier modelo pequeño "en borrador" acelere cualquier LLM, "independientemente de las diferencias de vocabulario".
Así, esta novedad soluciona una "ineficiencia fundamental en la IA generativa", tal y como ha detallado Intel en un comunicado, donde ha subrayado que, además, también funciona con modelos de diferentes desarrolladores y ecosistemas, y de código abierto, lo que lo hace una novedad "independiente del proveedor".
Concretamente, el nuevo método se basa en tres nuevos algoritmos, que "desacoplan la codificación especulativa de la alineación de vocabulario". De esta manera, se facilita la implementación flexible de LLM y permite combinar cualquier borrador de modelo pequeño con cualquier modelo grande para optimizar la velocidad y el coste de la inferencia .
"En un panorama fragmentado de IA, este avance en la decodificación especulativa promueve la apertura, la interoperabilidad y una implementación rentable desde la nube hasta el edge", ha sentenciado la tecnológica, al tiempo que ha matizado que desarrolladores, empresas e investigadores "ahora pueden combinar modelos para adaptarse a sus necesidades de rendimiento y a las limitaciones de hardware".
Con todo ello, Intel ha compartido que los algoritmos ya están disponibles en la biblioteca de código abierto de Hugging Face Transformers.