AWS-Ausfall: Wie automatisierte Fehler Teile des Internets lahmlegten

4

Ein weit verbreiteter Ausfall der Amazon Web Services (AWS) hat am Montag zahlreiche Online-Dienste lahmgelegt, den Zugang für Millionen von Benutzern unterbrochen und die Fragilität der modernen Internet-Infrastruktur deutlich gemacht. Der Vorfall, von dem über 2.000 Unternehmen betroffen waren, darunter Reddit, Ring, Snapchat und sogar Amazon selbst, war auf eine Reihe automatisierter Ausfälle zurückzuführen, die sich gegenseitig verschlimmerten.

Die Kaskade der Fehler

AWS hat den Verlauf des Ausfalls detailliert beschrieben: Ein Defekt in seinem automatisierten DNS-Verwaltungssystem löste kaskadierende Fehler aus, die die internen Wiederherstellungsmechanismen überforderten. DNS (Domain Name System) übersetzt Website-Adressen in maschinenlesbare Anweisungen, und wenn dies fehlschlägt, werden Verbindungen getrennt. Das Problem war nicht bösartig, sondern eine „Race Condition“, bei der mehrere automatisierte Systeme gleichzeitig versuchten, das Problem zu beheben, wodurch sich letztendlich gegenseitig der Fortschritt zunichte machte.

Ein von AWS angeführtes Beispiel betrifft automatisierte Systeme, die aufgrund von Verarbeitungsverzögerungen veraltete DNS-Pläne anstelle neuerer anwenden. Ein weiterer Faktor war ein fehlerhaftes System zur Überprüfung des Netzwerkzustands, das fälschlicherweise funktionsfähige Knoten als offline meldete, was die Instabilität verschärfte. Das Ergebnis war ein schwankender Zyklus von Ausfällen und Wiederherstellungen, der die Unterbrechung verlängerte.

Weitreichende Wirkung und Berichterstattung

Downdetector meldete weltweit über 9,8 Millionen Ausfallmeldungen, mit erheblichen Spitzenwerten in den USA, Großbritannien, Australien und Europa. Die Schwere des Ausfalls wurde durch die schiere Anzahl von Diensten erhöht, die auf die AWS-Infrastruktur angewiesen waren: vom Online-Banking bis hin zu Smart-Home-Geräten. Am Montagnachmittag erklärte Amazon, die Probleme seien gelöst, der Vorfall war jedoch eine deutliche Erinnerung daran, wie zentralisierte Cloud-Abhängigkeit große Teile des Internets in die Knie zwingen kann.

Gelernte Erkenntnisse und zukünftige Abhilfemaßnahmen

AWS hat bereits mit der Umsetzung von Änderungen begonnen, um ähnliche Vorfälle zu verhindern. Dazu gehören die Deaktivierung einiger Automatisierungen, bis Korrekturen vorliegen, das Hinzufügen einer „Geschwindigkeitskontrolle“, um Fehler bei Integritätsprüfungen zu begrenzen, und die Verbesserung der Drosselungsmechanismen zur Bewältigung von Arbeitslastspitzen.

Laut Branchenanalysten unterstreicht der Vorfall die Notwendigkeit einer größeren Widerstandsfähigkeit: Unternehmen sollten ihre Arbeitslasten auf mehrere Cloud-Regionen verteilen, anstatt kritische Vorgänge in einer einzigen Zone zu konzentrieren.

Das Gesamtbild: Zentralisiertes Risiko

Dieser Ausfall ist kein Einzelfall. Ähnliche Vorfälle mit Fastly und CrowdStrike zeigen, dass eine Handvoll Unternehmen weite Teile des Internets unterstützen und so systemische Risiken schaffen. Während eine solche Konzentration den Betrieb rationalisieren kann, verstärkt sie auch die Auswirkungen, wenn Ausfälle auftreten.

Sicherheitsexperten warnen zudem, dass technische Störungen bei Ausfällen Chancen für Cyberangriffe bieten könnten. Benutzer sollten wachsam gegenüber Phishing-Betrügereien und verdächtigen E-Mails bleiben, die zum Zurücksetzen von Passwörtern auffordern.

Der AWS-Ausfall ist eine wichtige Erinnerung: Die Abhängigkeit des Internets von einigen wenigen wichtigen Anbietern bedeutet, dass selbst geringfügige technische Fehler weitreichende Folgen haben können, was die Notwendigkeit einer größeren Redundanz und Widerstandsfähigkeit im digitalen Ökosystem unterstreicht.