Interruzione di AWS: in che modo gli errori automatizzati hanno bloccato parti di Internet

21

Lunedì una diffusa interruzione di Amazon Web Services (AWS) ha paralizzato numerosi servizi online, interrompendo l’accesso per milioni di utenti ed evidenziando la fragilità della moderna infrastruttura Internet. L’incidente, che ha colpito oltre 2.000 aziende tra cui Reddit, Ring, Snapchat e persino la stessa Amazon, è derivato da una serie di errori automatizzati che si sono sommati a vicenda.

La cascata degli errori

AWS ha spiegato dettagliatamente come si è svolta l’interruzione: un difetto nel suo sistema di gestione DNS automatizzato ha innescato errori a cascata che hanno sopraffatto i meccanismi di ripristino interni. Il DNS (Domain Name System) traduce gli indirizzi dei siti Web in istruzioni leggibili dalla macchina e, quando fallisce, le connessioni vengono interrotte. Il problema non era dannoso, ma piuttosto una “race condition”, in cui più sistemi automatizzati tentavano di risolvere il problema simultaneamente, annullando infine i rispettivi progressi.

Un esempio citato da AWS riguardava sistemi automatizzati che applicavano piani DNS obsoleti rispetto a quelli più recenti a causa di ritardi nell’elaborazione. Un altro fattore era un malfunzionamento del sistema di controllo dello stato della rete che segnalava erroneamente i nodi funzionali come offline, esacerbando l’instabilità. Il risultato fu un ciclo fluttuante di fallimenti e recuperi che prolungarono l’interruzione.

Impatto diffuso e reporting

Downdetector ha segnalato oltre 9,8 milioni di segnalazioni di interruzione a livello globale, con picchi significativi negli Stati Uniti, nel Regno Unito, in Australia e in Europa. La gravità dell’interruzione è stata accentuata dall’enorme numero di servizi che dipendono dall’infrastruttura AWS: dall’online banking ai dispositivi domestici intelligenti. Lunedì pomeriggio, Amazon ha dichiarato che i problemi sono stati risolti, anche se l’incidente è servito a ricordare duramente come la dipendenza centralizzata dal cloud possa mettere in ginocchio gran parte di Internet.

Lezioni apprese e mitigazioni future

AWS ha già iniziato a implementare modifiche per prevenire incidenti simili. Questi includono la disabilitazione di alcune automazioni fino a quando non saranno implementate le correzioni, l’aggiunta del “controllo della velocità” per limitare gli errori di controllo dello stato e il miglioramento dei meccanismi di limitazione per gestire i picchi di carico di lavoro.

Secondo gli analisti del settore, l’incidente sottolinea la necessità di una maggiore resilienza: le organizzazioni dovrebbero diversificare i carichi di lavoro su più regioni cloud invece di concentrare le operazioni critiche in un’unica zona.

Il quadro più ampio: rischio centralizzato

Questa interruzione non è isolata. Incidenti simili che coinvolgono Fastly e CrowdStrike dimostrano che una manciata di aziende sostiene vaste aree di Internet, creando un rischio sistemico. Sebbene tale concentrazione possa semplificare le operazioni, amplifica anche l’impatto in caso di guasti.

Gli esperti di sicurezza avvertono inoltre che i guasti tecnici durante le interruzioni possono creare opportunità per attacchi informatici. Gli utenti dovrebbero rimanere vigili contro le truffe di phishing e le e-mail sospette che richiedono la reimpostazione della password.

L’interruzione di AWS funge da promemoria fondamentale: la dipendenza di Internet da alcuni fornitori chiave significa che anche errori tecnici minori possono avere conseguenze di vasta portata, sottolineando la necessità di maggiore ridondanza e resilienza nell’ecosistema digitale.