Een wijdverbreide uitval van Amazon Web Services (AWS) heeft maandag talloze online diensten lamgelegd, waardoor de toegang voor miljoenen gebruikers werd verstoord en de kwetsbaarheid van de moderne internetinfrastructuur werd benadrukt. Het incident, dat meer dan 2.000 bedrijven trof, waaronder Reddit, Ring, Snapchat en zelfs Amazon zelf, was het gevolg van een reeks geautomatiseerde fouten die elkaar nog verder verergerden.
De waterval van fouten
AWS heeft gedetailleerd beschreven hoe de storing zich heeft ontwikkeld: een defect in het geautomatiseerde DNS-beheersysteem veroorzaakte trapsgewijze fouten die de interne herstelmechanismen overweldigden. DNS (Domain Name System) vertaalt websiteadressen in machinaal leesbare instructies, en als dit mislukt, worden verbindingen verbroken. Het probleem was niet kwaadaardig, maar eerder een ‘race condition’, waarbij meerdere geautomatiseerde systemen tegelijkertijd probeerden het probleem op te lossen, waardoor uiteindelijk elkaars voortgang ongedaan werd gemaakt.
Een door AWS aangehaald voorbeeld betrof geautomatiseerde systemen die verouderde DNS-plannen toepasten op nieuwere vanwege vertragingen in de verwerking. Een andere factor was een defect netwerkgezondheidscontrolesysteem dat functionele knooppunten ten onrechte als offline rapporteerde, wat de instabiliteit verergerde. Het resultaat was een fluctuerende cyclus van mislukkingen en hersteloperaties die de verstoring verlengde.
Wijdverbreide impact en rapportage
Downdetector rapporteerde wereldwijd meer dan 9,8 miljoen storingsrapporten, met aanzienlijke pieken in de VS, het VK, Australië en Europa. De ernst van de storing werd nog verergerd door het enorme aantal diensten dat afhankelijk was van de AWS-infrastructuur: van online bankieren tot slimme apparaten voor thuisgebruik. Maandagmiddag verklaarde Amazon dat de problemen opgelost waren, hoewel het incident een grimmige herinnering was aan hoe gecentraliseerde cloudafhankelijkheid grote delen van het internet op de knieën kan brengen.
Geleerde lessen en toekomstige oplossingen
AWS is al begonnen met het doorvoeren van wijzigingen om soortgelijke incidenten te voorkomen. Deze omvatten het uitschakelen van een deel van de automatisering totdat er oplossingen zijn, het toevoegen van “snelheidscontrole” om fouten bij de gezondheidscontrole te beperken, en het verbeteren van de throttling-mechanismen om pieken in de werklast te beheersen.
Volgens brancheanalisten onderstreept het incident de behoefte aan grotere veerkracht: organisaties moeten de werklasten spreiden over meerdere cloudregio’s in plaats van kritieke activiteiten in één enkele zone te concentreren.
Het grotere geheel: gecentraliseerd risico
Deze storing staat niet op zichzelf. Soortgelijke incidenten met Fastly en CrowdStrike tonen aan dat een handvol bedrijven grote delen van het internet ondersteunen, waardoor systeemrisico’s ontstaan. Hoewel een dergelijke concentratie de activiteiten kan stroomlijnen, vergroot het ook de impact wanneer zich storingen voordoen.
Beveiligingsexperts waarschuwen ook dat technische fouten tijdens storingen kansen kunnen creëren voor cyberaanvallen. Gebruikers moeten waakzaam blijven tegen phishing-scams en verdachte e-mails waarin wordt gevraagd om wachtwoordresets.
De AWS-storing dient als een kritische herinnering: de afhankelijkheid van het internet van een paar belangrijke providers betekent dat zelfs kleine technische fouten verstrekkende gevolgen kunnen hebben, wat de noodzaak van meer redundantie en veerkracht in het digitale ecosysteem onderstreept.





























