Investigadores de Harvard tratan de desentrañar la caja negra de las IA

|

IA


MADRID 5 May. (EUROPA PRESS) -

Los sistemas de inteligencia artificial basados en redes neuronales (como ChatGPT, Claude, DeepSeek o Gemini) son extraordinariamente potentes, pero su funcionamiento interno sigue siendo en gran medida una 'caja negra', por lo que un grupo de físicos de la Universidad de Harvard (Estados Unidos) ha tratado de desentrañar esta cuestión. Para ello, ha desarrollado un modelo matemático simplificado del aprendizaje en redes neuronales que puede analizarse matemáticamente utilizando las herramientas de la física estadística.


Los "modelos simplificados", como el presentado en este estudio publicado recientemente en el 'Journal of Statistical Mechanics: Theory and Experiment (JSTAT)', proporcionan a los investigadores un laboratorio teórico controlado para investigar los mecanismos fundamentales de las redes neuronales. Una comprensión más profunda del funcionamiento de estos sistemas podría contribuir al diseño de sistemas de inteligencia artificial más eficientes y fiables, además de ayudar a abordar algunos de los desafíos actuales.


Es algo parecido a cuando Kepler describió las leyes que rigen el movimiento de los planetas. "Las leyes de la gravedad de Newton se descubrieron identificando primero leyes de escala entre los periodos orbitales de los planetas y sus radios", explica Alexander Atanasov, estudiante de doctorado en física teórica en la Universidad de Harvard y primer autor del nuevo estudio.


Kepler formuló sus leyes observando el movimiento planetario, sin comprender del todo los mecanismos que lo explican. Sin embargo, ese trabajo resultó crucial: posteriormente permitió a Newton descubrir la gravedad, lo que condujo a una comprensión mucho más profunda del universo.


En los estudios de aprendizaje profundo (la rama de la inteligencia artificial basada en redes neuronales), es posible que aún nos encontremos en una fase kepleriana similar. Hoy en día, los investigadores han identificado varias leyes empíricas que describen el comportamiento de las redes neuronales, pero todavía carecemos de una especie de 'teoría de la gravedad' que explique por qué se comportan de esa manera.


Los científicos, por ejemplo, conocen las leyes de escala. "Sabemos que, si ampliamos un modelo o le proporcionamos más datos, su rendimiento aumenta", explica Cengiz Pehlevan, profesor asociado de Matemáticas Aplicadas en la Universidad de Harvard y autor principal del estudio.


Estas leyes permiten predecir el rendimiento, pero aún no revelan los mecanismos subyacentes. Este enfoque no solo es ineficiente (los sistemas de IA actuales consumen enormes cantidades de energía), sino que tampoco contribuye significativamente a nuestra comprensión de cómo funcionan realmente estos sistemas.


"Los modelos de aprendizaje profundo no son algoritmos escritos a mano como un conjunto de reglas. No se diseñan manualmente", explica Atanasov. "Se parecen mucho más a un organismo que se cultiva en un laboratorio".


Los chatbots de IA generativa se basan en redes neuronales, una tecnología que, de forma muy lejana, se asemeja al funcionamiento de un cerebro biológico. Están compuestos por numerosas unidades de procesamiento pequeñas, llamadas neuronas artificiales, cada una de las cuales realiza operaciones sencillas, pero están conectadas entre sí en una red compleja.


Es esta estructura en red la que permite que surja un comportamiento "inteligente". Si bien conocemos las operaciones matemáticas que realiza cada componente individual, predecir y explicar mecánicamente el comportamiento del sistema en su conjunto sigue siendo extremadamente difícil: a medida que aumenta el número de componentes, la complejidad se incrementa rápidamente.


Dado que actualmente es imposible analizar una red neuronal completa con métodos matemáticos exactos, Atanasov y sus colaboradores optaron por trabajar con un modelo simplificado que aún captura muchas características clave de sistemas más complejos.


"El modelo que estamos estudiando es lo suficientemente simple como para resolverse matemáticamente", explica Jacob Zavatone-Veth, investigador asociado de la Harvard Society of Fellows y coautor del estudio. "Al mismo tiempo, reproduce varios de los fenómenos clave observados en grandes redes neuronales".


El modelo simplificado utilizado en el estudio es la regresión de cresta, una variante de la regresión lineal. La regresión lineal es un método estadístico que se utiliza para estimar relaciones entre variables. Por ejemplo, si conocemos la altura y el peso de 100 personas, podemos usar la regresión lineal para identificar una relación matemática entre ambas y estimar la altura de una nueva persona basándonos únicamente en su peso.


La regresión de cresta es un tipo de regresión que ayuda a reducir el fenómeno conocido como sobreajuste. Cuando los modelos se entrenan con grandes conjuntos de datos, una red neuronal (al igual que un estudiante muy aplicado pero quizás no particularmente perspicaz) puede terminar memorizando los datos de entrenamiento en lugar de aprender patrones que le permitan generalizar y realizar predicciones fiables sobre nuevos datos.


Sin embargo, los modelos de aprendizaje profundo suelen comportarse de forma sorprendente. "A pesar de su enorme tamaño, estos modelos pueden aprender de los datos sin sobreajustarse", explica Atanasov, calificándolo como "uno de los grandes misterios del aprendizaje profundo".


A primera vista, esto parece contraintuitivo. En teoría, los modelos más grandes deberían ser más propensos al sobreajuste. Sin embargo, las leyes de escalado demuestran que el rendimiento suele mejorar a medida que se utilizan más datos durante el entrenamiento.


El nuevo estudio ofrece una posible explicación. Según los investigadores, la capacidad de las redes neuronales para aprender sin sobreajustarse podría deberse a principios relacionados con la teoría de la renormalización, un marco teórico ampliamente utilizado en la física estadística.


Para comprender el porqué, conviene considerar la dimensionalidad de los datos procesados ??por los sistemas de IA modernos. En el ejemplo anterior de regresión lineal, consideramos solo dos variables: altura y peso. Sin embargo, los sistemas reales, como ChatGPT, operan en espacios con miles o incluso millones de variables, lo que dificulta enormemente un análisis matemático exacto.


Aquí resultan útiles las ideas de la física estadística. En datos de muy alta dimensionalidad, aparecen de forma natural pequeñas variaciones aleatorias, conocidas como fluctuaciones estadísticas. La teoría de la renormalización demuestra que muchos detalles microscópicos pueden integrarse eficazmente en un número reducido de parámetros, lo que significa que incluso sistemas muy complejos pueden mostrar un comportamiento a gran escala relativamente sencillo.


Utilizando este marco y su modelo simplificado, los investigadores demuestran cómo estas fluctuaciones de alta dimensión pueden, de hecho, estabilizar el aprendizaje en lugar de desestabilizarlo. "Esto es algo que podemos comprender analizando modelos lineales más simples", agrega Pehlevan, sugiriendo que el mismo mecanismo podría explicar por qué las redes neuronales actuales evitan el sobreajuste incluso cuando están altamente sobreparametrizadas.


El modelo simplificado también puede tener otra utilidad. Como señala Zavatone-Veth, podría servir como punto de partida para comprender cómo se comporta el aprendizaje en sistemas de muy alta dimensionalidad.


Al estudiar un modelo lo suficientemente simple como para analizarlo matemáticamente, los investigadores pueden identificar qué aspectos del aprendizaje son genéricos y cuáles dependen de los detalles de un modelo específico. En este sentido, estudios como este pueden ayudar a esclarecer algunos de los principios fundamentales que subyacen al aprendizaje en sistemas complejos.

europapress