AWS Outage: Bagaimana Kesalahan Otomatis Menghentikan Sebagian Internet

7

Pemadaman Amazon Web Services (AWS) yang meluas melumpuhkan banyak layanan online pada hari Senin, mengganggu akses jutaan pengguna dan menyoroti rapuhnya infrastruktur internet modern. Insiden tersebut, yang berdampak pada lebih dari 2.000 perusahaan termasuk Reddit, Ring, Snapchat, dan bahkan Amazon sendiri, berasal dari serangkaian kegagalan otomatis yang saling melengkapi.

Rangkaian Kesalahan

AWS telah merinci bagaimana pemadaman ini terjadi: kerusakan pada sistem manajemen DNS otomatisnya memicu kesalahan berjenjang yang membebani mekanisme pemulihan internal. DNS (Sistem Nama Domain) menerjemahkan alamat situs web menjadi instruksi yang dapat dibaca mesin, dan jika gagal, koneksi akan terputus. Masalahnya tidak berbahaya, melainkan sebuah “kondisi perlombaan”, di mana beberapa sistem otomatis berusaha memperbaiki masalah secara bersamaan, yang pada akhirnya membatalkan kemajuan satu sama lain.

Salah satu contoh yang dikutip oleh AWS melibatkan sistem otomatis yang menerapkan paket DNS lama dibandingkan paket baru karena penundaan pemrosesan. Faktor lainnya adalah sistem pemeriksaan kesehatan jaringan yang tidak berfungsi sehingga secara salah melaporkan node fungsional sebagai offline, sehingga memperburuk ketidakstabilan. Hasilnya adalah siklus kegagalan dan pemulihan yang berfluktuasi dan memperpanjang gangguan tersebut.

Dampak dan Pelaporan yang Meluas

Downdetector melaporkan lebih dari 9,8 juta laporan pemadaman listrik secara global, dengan lonjakan signifikan di AS, Inggris, Australia, dan Eropa. Tingkat keparahan pemadaman ini diperparah dengan banyaknya layanan yang bergantung pada infrastruktur AWS: mulai dari perbankan online hingga perangkat rumah pintar. Pada Senin sore, Amazon menyatakan bahwa masalahnya telah teratasi, meskipun insiden tersebut menjadi pengingat akan bagaimana ketergantungan cloud terpusat dapat membuat sebagian besar internet terhenti.

Pembelajaran dan Mitigasi di Masa Depan

AWS telah mulai menerapkan perubahan untuk mencegah insiden serupa. Hal ini termasuk menonaktifkan beberapa otomatisasi hingga perbaikan dilakukan, menambahkan “kontrol kecepatan” untuk membatasi kegagalan pemeriksaan kondisi, dan meningkatkan mekanisme pembatasan untuk mengelola lonjakan beban kerja.

Menurut analis industri, insiden ini menggarisbawahi perlunya ketahanan yang lebih besar: organisasi harus mendiversifikasi beban kerja di berbagai wilayah cloud dibandingkan memusatkan operasi penting di satu zona.

Gambaran Lebih Besar: Risiko Terpusat

Pemadaman ini tidak terisolasi. Insiden serupa yang melibatkan Fastly dan CrowdStrike menunjukkan bahwa segelintir perusahaan mendukung sebagian besar internet, sehingga menciptakan risiko sistemik. Meskipun konsentrasi seperti itu dapat menyederhanakan operasi, hal ini juga memperkuat dampak ketika terjadi kegagalan.

Pakar keamanan juga memperingatkan bahwa kesalahan teknis selama pemadaman listrik dapat menciptakan peluang terjadinya serangan siber. Pengguna harus tetap waspada terhadap penipuan phishing dan email mencurigakan yang meminta pengaturan ulang kata sandi.

Pemadaman AWS berfungsi sebagai pengingat penting: ketergantungan internet pada beberapa penyedia utama berarti bahwa kesalahan teknis sekecil apa pun dapat menimbulkan konsekuensi yang luas, sehingga menggarisbawahi perlunya redundansi dan ketahanan yang lebih besar dalam ekosistem digital.