Cloudflare alerta sobre el uso de 'prompt injection' mediante señuelos para engañar a la IA y ejecutar código malicioso

|

Expertos en ciberseguridad de Cloudflare han alertado sobre la eficacia del uso de técnicas de 'prompt injection' mediante señuelos para manipular o confundir a los modelos de inteligencia artificial (IA) y lograr que autoricen código malicioso.



El equipo de investigación de amenazas de la compañía Cloudforce One identificó el uso de 'scripts' de Cloudflare Workers que intentaban manipular sus sistemas de detección mediante la inyección indirecta de código (IDPI) en marzo de este año.



Esto es, cuando un actor malicioso introduce instrucciones ocultas en los datos dentro de las líneas de código para manipular la lógica del modelo de IA que procesa esta información. Esto provoca que el modelo ejecute las instrucciones ocultas del atacante, en lugar de sus funciones administrativas o de seguridad previstas.



Ante este escenario y de cara a mejorar las capacidades de detección para evitar este tipo de abusos, el equipo de expertos ha llevado a cabo un estudio para medir el impacto de la IDPI en las capacidades de razonamiento de varios modelos de lenguaje a gran escala (LLM), incluyendo siete de los principales modelos de IA actuales.



Como resultado, se ha podido conocer que, tanto los modelos de IA más avanzados considerados 'frontier' (con razonamiento de última generación) como los 'non frontier' (de alta velocidad y optimizados en cuanto a cotes) son susceptibles ante los atacantes que intentan inyectar código gracias al uso de una técnica de señuelos.



Concretamente, estos señuelos son bloques de texto con mensajes de evasión diseñados para confundir o manipular a los modelos de IA, logrando disipar a los modelos que se basan en auditoría de seguridad y, con ello, conseguir que autoricen la ejecución de código malicioso, lo que puede desembocar en diversas consecuencias dañinas.



Para evaluar como influyen estas inyecciones de señuelos en el rendimiento de los modelos, los investigadores inyectaron manualmente cargas útiles de IDPI de distintos niveles en 'scripts' de Cloudflare Workers conocidos por ser "maliciosos o abusivos".



Estas cargas útiles utilizaban señuelos de seguridad 'Notice to AI', que se basaban en bloques de texto diseñados específicamente para conseguir que los modelos los clasificaran erróneamente como 'scripts' de código benigno.



Tras un análisis de contexto completo, con 18.400 llamadas a la API en cada modelo, el equipo de Cloudforce ha concluido que la eficacia del engaño de la IA "depende totalmente del nivel del modelo" y "fundamentalmente" de la proporción de comentarios respecto al código.



SEÑUELOS SUTILES PARA PASAR DESAPERCIBIDOS


Así una de las principales conclusiones del estudio es que el "engaño sutil es el más eficaz", dado que la detección del código malicioso en el señuelo tiene más probabilidades de fallar cuando los comentarios de evasión representan "menos del uno por ciento del archivo total".



En este sentido, los investigadores han detallado que existe una zona de evasión del 1 por ciento y que, manteniéndose dentro de ese rango, las tasas de detección en todos los modelos probados "cayeron en picado" hasta el 53 por ciento.



Como han explicado desde Cloudflare, al apenas hacer comentarios de evasión, los señuelos influyen sutilmente en el razonamiento del modelo sin generar sospechas debido a la repetición excesiva de que hay una alerta.



Por el contrario, los expertos también han identificado una zona denominada como huella digital, que es cuando los comentarios de evasión superan el 25 por ciento del ratio y se convierten en "una firma distintiva de fraude" en lugar de una evasión.



En estos casos, la detección alcanzó el 99 por ciento porque el modelo interpretó la saturación de reclamaciones como un indicador de intención maliciosa.



Por tanto, los expertos en ciberseguridad han definido este comportamiento como "la curva en U del engaño", que hace referencia a que los intentos moderados de engañar a la IA suelen funcionar pero "protestar demasiado" activa una alarma de repetición que "provoca que la IA marque el código como fraudulento".



TRAMPA DE CONTEXTO Y ESTEREOTIPOS LINGÜÍSTICOS


Además de todo ello, los investigadores también han concluido que aprovechar el contexto para ocultar los señuelos también resulta útil. Así, al ocultar cargas maliciosas dentro de grandes paquetes de librerías, como SDK de React, los atacantes lograron reducir las tasas de detección a solo un 12 por ciento.



Esto se debe a que el modelo tiene que lograr identificar el señuelo entre una gran cantidad de información "agotando eficazmente la capacidad de enfoque de la IA" con un método de "ofuscación por volumen".



Otro punto que revela el estudio es que los modelos de IA han desarrollado algunos estereotipos lingüísticos a la hora de identificar código malicioso. Concretamente, los resultados dejan ver que en algunas ocasiones los modelos marcaron los comentarios escritos en ruso o chino como "señales de alto riesgo", independientemente de la función real del código en cuestión.



Sin embargo, los modelos mostraron mayor confianza con los comentarios escritos en idiomas como el estonio, que no es tan común entre los ciberdelincuentes y pasaron más desapercibidos.



RIESGO PARA LAS ORGANIZACIONES QUE DEPENDEN DE SISTEMAS AUTÓNOMOS


Todo ello pone de relieve "una realidad técnica" dado que, como han apuntado desde Cloudflare, a medida las organizaciones utilizan sistemas que dependen cada vez más de los modelos de lógica descriptiva (LLM) para realizar un análisis de seguridad en tiempo real, se vuelven vulnerables a ataques capaces de engañar el modelo y "lograr que priorice el texto que suena más autoritario en su ventana de contexto sobre su capacitación de seguridad subyacente".



Para evitar este tipo de acciones maliciosas, los investigadores han recomendado eliminar los comentarios del código antes del análisis, como una forma eficaz de "neutralizar las distracciones lingüísticas" y garantizar que el modelo se centre en "lógica funcional".



Además, también han apuntado técnicas como el truncamiento intencional, donde al trabajar con 'scripts' extensos, se le indique a los analizadores automatizados que prioricen los bloques de código funcionales sobre el código repetitivo, los metadatos o el código SDK específico.



Igualmente, desde Cloudflare también han apuntado a llevar a cabo una anonimización de variables previa al análisis, así como a solicitar indicaciones específicas sobre el vector de ataque en caso de sospecha, de cara a recibir resultados más precisos.




europapress