Interrupción de AWS: cómo los errores automatizados paralizaron partes de Internet

17

Una interrupción generalizada de Amazon Web Services (AWS) paralizó el lunes numerosos servicios en línea, interrumpiendo el acceso de millones de usuarios y poniendo de relieve la fragilidad de la infraestructura moderna de Internet. El incidente, que afectó a más de 2.000 empresas, incluidas Reddit, Ring, Snapchat e incluso la propia Amazon, se debió a una serie de fallos automatizados que se agravaron entre sí.

La cascada de errores

AWS ha detallado cómo se desarrolló la interrupción: un defecto en su sistema automatizado de gestión de DNS desencadenó errores en cascada que abrumaron los mecanismos de recuperación internos. DNS (Sistema de nombres de dominio) traduce las direcciones de sitios web en instrucciones legibles por máquina y, cuando falla, se cortan las conexiones. El problema no era malicioso, sino más bien una “condición de carrera”, en la que varios sistemas automatizados intentaban solucionar el problema simultáneamente y, en última instancia, deshacían el progreso de los demás.

Un ejemplo citado por AWS involucró sistemas automatizados que aplicaban planes de DNS obsoletos sobre los más nuevos debido a retrasos en el procesamiento. Otro factor fue un mal funcionamiento del sistema de verificación del estado de la red que informaba falsamente que los nodos funcionales estaban fuera de línea, lo que exacerbó la inestabilidad. El resultado fue un ciclo fluctuante de fallas y recuperaciones que prolongó la perturbación.

Impacto generalizado e informes

Downdetector informó más de 9,8 millones de informes de interrupciones en todo el mundo, con picos significativos en EE. UU., Reino Unido, Australia y Europa. La gravedad de la interrupción se vio agravada por la gran cantidad de servicios que dependen de la infraestructura de AWS: desde banca en línea hasta dispositivos domésticos inteligentes. El lunes por la tarde, Amazon declaró que los problemas estaban resueltos, aunque el incidente sirvió como un claro recordatorio de cómo la dependencia centralizada de la nube puede poner de rodillas a grandes partes de Internet.

Lecciones aprendidas y mitigaciones futuras

AWS ya ha comenzado a implementar cambios para evitar incidentes similares. Estos incluyen deshabilitar parte de la automatización hasta que se implementen las soluciones, agregar “control de velocidad” para limitar las fallas en las comprobaciones de estado y mejorar los mecanismos de aceleración para gestionar los aumentos repentinos de la carga de trabajo.

Según los analistas de la industria, el incidente subraya la necesidad de una mayor resiliencia: las organizaciones deberían diversificar las cargas de trabajo en múltiples regiones de la nube en lugar de concentrar las operaciones críticas en una sola zona.

El panorama general: riesgo centralizado

Esta interrupción no es aislada. Incidentes similares que involucran a Fastly y CrowdStrike demuestran que un puñado de empresas sustentan vastas áreas de Internet, creando un riesgo sistémico. Si bien dicha concentración puede agilizar las operaciones, también amplifica el impacto cuando ocurren fallas.

Los expertos en seguridad también advierten que las fallas técnicas durante las interrupciones pueden crear oportunidades para ataques cibernéticos. Los usuarios deben permanecer atentos a las estafas de phishing y a los correos electrónicos sospechosos que solicitan el restablecimiento de contraseñas.

La interrupción de AWS sirve como recordatorio fundamental: la dependencia de Internet de unos pocos proveedores clave significa que incluso errores técnicos menores pueden tener consecuencias de gran alcance, lo que subraya la necesidad de una mayor redundancia y resiliencia en el ecosistema digital.