Amazon ha explicado que la interrupción global de Amazon Web Services (AWS) del pasado 20 de octubre se debió a un problema con una automatizacion, que no pudo corregir un fallo en el registro DNS (sistema de nombres de dominio).
El pasado 20 de octubre numerosos servicios digitales tuvieron dificultades para operar de manera habitual, lo que resultó en la imposibilidad de acceder o usar plataformas como Amazon, Alexa, Snapchat, Epic Games Store o Fortnite, pero también asistentes de Inteligencia Artificial (IA) como ChatGPT de OpenAI y Perplexity, entre otras muchas.
El fallo, aunque tuvo repercusiones globales, se identificó en la región del norte de Virginia US-EAST-1 (Estados Unidos), en la resolución de DNS del punto de conexión de la API de DynamoDB.
Más concretamente, "el incidente fue provocado por un defecto latente dentro del sistema automatizado de administración de DNS del servicio que provocó fallos en la resolución de puntos finales para DynamoDB", ha explicado ahora Amazon.
DynamoDB "mantiene cientos de miles de registros DNS para operar una gran flota heterogénea de balanceadores de carga en cada región", lo que hace que la automatización sea clave para "garantizar que estos registros DNS se actualicen con frecuencia para añadir capacidad adicional a medida que esté disponible, gestionar correctamente los fallos de hardware y distribuir el tráfico de forma eficiente para optimizar la experiencia del cliente".
En un momento dado, se generó "un registro DNS vacío incorrecto para el punto de conexión regional del servicio" que la actualización no pudo reparar, y que finalmente requirió intervención manual para solucionarlo.