GPT-5.5 Cyber, el modelo centrado en la ciberseguridad de OpenAI, tiene capacidades similares a las de Claude Mythos de Anthropic para atacar sistemas de manera autónoma, como han demostrado las pruebas que ha realizado el Instituto de Seguridad de la IA (AISI, por sus siglas en inglés), perteneciente al Departamento de Ciencia, Innovación y Tecnología del gobierno del Reino Unido.
GPT-5.5-Cyber es una variante del modelo GPT-5.5 de OpenAI diseñado específicamente para proteger empresas e infraestructuras, a ejemplo de Claude Mythos Preview de Anthropic. Ambos forman parte de una nueva tendencia, la de los modelos de inteligencia artificial con un rendimiento capaz de completar simulaciones de ataque a una red corporativa, un operación que requiere de varios pasos y que a una persona humana le llevaría "alrededor de 20 horas".
Así lo expone el AISI, que ha compartido los resultados de las pruebas a las que ha sometido al modelo de OpenAI, y que anteriormente había realizado a Claude Mythos Preview. En concreto, las capacidades de GPT-5.5-Cyber se pusieron a prueba en 95 tareas de ciberseguridad en formato 'atrapa la bandera', divididas en cuatro niveles de dificultad.
GPT-5.5-Cyber, al igual que Claude Mythos, completa las tareas básicas sin problemas. En lo que respecta a las más avanzadas, estas se dividen en dos niveles: Practitioner y Expert. Según el AISI, en las tareas de nivel Expert, GPT-5.5 ha mostrado tener un rendimiento superior al de Claude Mythos, al tener una tasa de aprobación promedio del 71,4 por ciento frente al 68,6 por ciento del modelo de Anthropic.
Estas tareas se centran en la investigación y explotación autónoma de vulnerabilidades contra objetivos realistas y mitigaciones modernas, y requieren habilidades como la ingeniería inversa de binarios sin código fuente, el desarrollo de 'exploits' fiables para desbordamientos de pila y la recuperación de claves mediante ataques de oráculo de relleno, entre otras.
El AISI ha destacado dos simulaciones en concreto: 'Cooling Tower' y The Last Ones'. Esta última es una simulación de ataque a una red corporativa de 32 pasos, modelada según la cadena de ataque de una intrusión empresarial y abarca cuatro subredes y aproximadamente veinte hosts', que un humano tardaría 20 horas en completar.
En ella, destacó el rendimiento de Claude Mythos, que fue capaz de resolver tres de diez intentos, mientras que GPT-5.5 Cyber se quedó en segundo lugar tras completar dos de diez intentos.
El AISI ha indicado, asimismo, que GPT-5.5 no pudo resolver la simulación de ataque a un sistema de control industrial conocida como 'Cooling Tower', que requiere completar siete pasos y que a un humano experto le lleva unas 15 horas. Aunque también ha señalado que "ningún modelo lo ha logrado hasta ahora".
Cabe señalar que las pruebas se han realizado en entornos controlados que simulan situaciones reales con acceso a la red, pero en los que no se han incorporado medidas de defensa activas, por lo que la organización no puede afirmar que si "GPT-5.5 tendría éxito contra un objetivo bien protegido".
"GPT-5.5 demuestra que la rápida mejora en tareas cibernéticas podría ser parte de una tendencia más general. Si la capacidad ciberofensiva surge como consecuencia de mejoras más generales en la autonomía, el razonamiento y la programación a largo plazo, cabe esperar nuevos incrementos en la capacidad cibernética de los modelos en un futuro próximo, posiblemente de forma consecutiva", ha apostillado.
Con anterioridad el AISI sometió a Claude Mythos a evaluaciones controladas que incluyeron sondeos basados en chat, desafíos de captura de bandera y simulaciones de ciberataques de múltiples pasos; también en entornos sin medias de seguridad ni penalizaciones.
En sus resultados, destacaron que el modelo de IA de Anthropic desarrollado para ayudar en la seguridad defensiva, tiene la capacidad de atacar de manera autónoma a empresas pequeñas que cuentan con protecciones débiles.