- Pada 19–20 Oktober 2025, beberapa layanan inti termasuk Amazon DynamoDB mengalami gangguan berkepanjangan di region AWS N. Virginia (us-east-1)
- Gangguan dimulai ketika catatan DNS kosong yang keliru dibuat akibat race condition laten dalam sistem manajemen DNS otomatis DynamoDB
- Akibatnya, terjadi rangkaian masalah seperti kegagalan pembuatan instance EC2, error koneksi Network Load Balancer (NLB), serta latensi dan kegagalan API pada banyak layanan seperti Lambda, ECS, dan Redshift
- AWS mengidentifikasi akar masalah sebagai tabrakan pembaruan simultan abnormal antar DynamoDB DNS Enactor, lalu memulihkan layanan sepenuhnya sekitar pukul 2:20 siang pada 20 Oktober melalui pemulihan manual
- Insiden ini menyoroti kompleksitas saling ketergantungan antar sistem otomasi internal AWS, dan perbaikan struktural untuk meningkatkan ketahanan DNS, EC2, dan NLB telah diisyaratkan
Ringkasan insiden
- Gangguan dimulai pada 19 Oktober 2025 pukul 11:48 malam (PDT) dan berakhir pada 20 Oktober pukul 2:20 siang (PDT)
- Ada tiga periode dampak utama:
- 19 Oktober 11:48PM~20 Oktober 2:40AM: tingkat error API DynamoDB melonjak tajam
- 20 Oktober 5:30AM~2:09PM: error koneksi NLB meningkat
- 20 Oktober 2:25AM~10:36AM: kegagalan pembuatan instance EC2 baru dan masalah konektivitas jaringan
- Gangguan bermula dari cacat pada sistem manajemen DNS DynamoDB lalu meluas ke banyak layanan seperti EC2, NLB, Lambda, dan Redshift
Penyebab dan dampak gangguan DynamoDB
- Sistem manajemen DNS otomatis DynamoDB memicu cacat laten, sehingga catatan DNS untuk
dynamodb.us-east-1.amazonaws.com keliru diperbarui menjadi kosong
- Sistem ini dipisah menjadi dua komponen:
- DNS Planner: memantau status load balancer dan membuat rencana DNS baru
- DNS Enactor: bertugas menerapkan perubahan ke Route53
- Terjadi race condition di antara DNS Enactor yang ditempatkan secara independen di tiga Availability Zone (AZ)
- Enactor pertama yang terlambat menerapkan rencana lama
- Enactor kedua menerapkan rencana terbaru lalu menghapus rencana lama, sehingga semua alamat IP ikut terhapus dan sistem masuk ke kondisi tidak konsisten
- Karena pemulihan otomatis gagal, dibutuhkan intervensi manual
- Tepat setelah gangguan terjadi pada 11:48PM, semua layanan dan trafik pelanggan yang bergantung pada DynamoDB mengalami kegagalan koneksi
- Pelanggan yang menggunakan global table masih dapat mengirim permintaan ke replika di region lain, tetapi terjadi replication lag
- Pada 12:38AM, engineer AWS memastikan bahwa status DNS adalah akar masalah
- Pada 1:15AM, langkah pemulihan sementara memulihkan sebagian koneksi layanan internal
- Pada 2:25AM, informasi DNS pulih sepenuhnya, dan pada 2:40AM semua koneksi kembali normal
Dampak pada Amazon EC2 dan proses pemulihan
- Dari 19 Oktober 11:48PM hingga 20 Oktober 1:50PM, terjadi kenaikan tingkat error API EC2, kegagalan pembuatan instance, dan peningkatan latensi
- Instance yang sudah berjalan tidak terdampak
- Pengelolaan instance EC2 menggunakan dua subsistem: DropletWorkflow Manager (DWFM) dan Network Manager
- DWFM mengelola status server fisik (“droplet”) dan melakukan pemeriksaan status secara berkala
- Network Manager menyebarkan konfigurasi jaringan instance
- Karena gangguan DynamoDB, pemeriksaan status DWFM gagal dan lease droplet kedaluwarsa
- Setelah DynamoDB pulih pada 2:25AM, DWFM mencoba terhubung kembali, tetapi jumlah droplet yang sangat besar memicu congestive collapse
- Pada 4:14AM, engineer me-restart host DWFM secara selektif untuk membersihkan antrean dan melanjutkan pemulihan
- Pada 5:28AM, semua lease droplet dipulihkan dan pembuatan instance baru dilanjutkan
- Setelah itu, saat Network Manager memproses backlog propagasi status jaringan yang tertunda, terjadi latensi konektivitas jaringan
- Pada 10:36AM, waktu propagasi jaringan kembali normal
- Pada 11:23AM, pelonggaran throttling dimulai, dan pada 1:50PM EC2 pulih sepenuhnya
Dampak pada Network Load Balancer (NLB)
- Dari 20 Oktober 5:30AM hingga 2:09PM, sebagian pelanggan mengalami peningkatan error koneksi NLB
- NLB memiliki arsitektur multi-tenant dan merutekan trafik ke instance EC2 backend
- Penyebab gangguan adalah kegagalan health check akibat keterlambatan propagasi status jaringan
- Konfigurasi jaringan pada instance EC2 yang baru ditambahkan belum selesai, sehingga health check gagal
- Hasil health check berulang secara tidak stabil, menyebabkan node NLB dihapus dari DNS lalu dikembalikan lagi
- Pada 6:52AM, sistem pemantauan mendeteksi masalah dan engineer mulai merespons
- Peningkatan beban pada subsistem health check memicu failover DNS AZ otomatis
- Pada 9:36AM, failover otomatis dinonaktifkan sehingga semua node yang sehat kembali
- Pada 2:09PM, setelah EC2 pulih, failover otomatis diaktifkan kembali
Dampak pada layanan AWS lainnya
- AWS Lambda:
- Dari 19 Oktober 11:51PM hingga 20 Oktober 2:15PM terjadi error API dan latensi
- Gangguan DynamoDB menyebabkan kegagalan pembuatan dan pembaruan fungsi, serta keterlambatan pemrosesan event SQS/Kinesis
- Pada 7:04AM, kegagalan health check NLB menyebabkan penyusutan sistem internal dan pembatasan pemanggilan asinkron
- Pada 2:15PM, semua backlog selesai diproses dan layanan kembali normal
- ECS, EKS, Fargate:
- Dari 19 Oktober 11:45PM hingga 20 Oktober 2:20PM terjadi kegagalan menjalankan container dan keterlambatan penskalaan cluster
- Amazon Connect:
- Dari 19 Oktober 11:56PM hingga 20 Oktober 1:20PM terjadi error pada panggilan, chat, dan pemrosesan case
- Setelah DynamoDB pulih, sebagian besar fungsi kembali normal, tetapi setelah 7:04AM error muncul lagi akibat dampak NLB dan Lambda
- Pada 1:20PM layanan pulih sepenuhnya
- AWS STS:
- Dari 19 Oktober 11:51PM hingga 20 Oktober 9:59AM terjadi error dan latensi pada API autentikasi
- Setelah DynamoDB pulih, layanan sempat normal sementara, lalu error muncul lagi karena masalah NLB
- Login IAM dan Identity Center:
- Dari 19 Oktober 11:51PM hingga 20 Oktober 1:25AM terjadi peningkatan kegagalan autentikasi
- Setelah DynamoDB pulih, layanan kembali normal
- Amazon Redshift:
- Dari 19 Oktober 11:47PM hingga 20 Oktober 2:21AM terjadi kegagalan query dan modifikasi cluster
- Setelah DynamoDB pulih, sebagian cluster masih belum normal karena gangguan EC2
- Pada 21 Oktober 4:05AM layanan pulih sepenuhnya
- Karena ketergantungan pada IAM API, kegagalan query sementara juga terjadi di region global
- Layanan lainnya:
- Managed Workflows for Apache Airflow, Outposts, AWS Support Center, dan lainnya juga terdampak
Tindak lanjut dan rencana perbaikan
- Otomasi DynamoDB DNS Planner dan Enactor dinonaktifkan sepenuhnya, dan sebelum diaktifkan kembali AWS berencana memperbaiki race condition serta menambahkan mekanisme pengaman
- NLB: akan diperkenalkan mekanisme rate control yang membatasi kapasitas yang dapat dihapus oleh satu NLB saat health check gagal
- EC2:
- Membangun test suite baru yang mencakup workflow pemulihan DWFM
- Menyempurnakan smart throttling pada sistem propagasi data dengan menambahkan pembatasan permintaan berdasarkan ukuran antrean tunggu
- AWS juga sedang meninjau tambahan langkah untuk memperpendek waktu pemulihan dan mencegah insiden serupa, melalui analisis ketergantungan antarlayanan secara menyeluruh
Kesimpulan dan permintaan maaf
- AWS menyampaikan permintaan maaf resmi atas dampak insiden ini terhadap pelanggan
- Perusahaan mengakui bahwa meski selama ini mempertahankan ketersediaan layanan yang tinggi, gangguan kali ini berdampak signifikan pada bisnis pelanggan
- AWS berjanji menjadikan insiden ini sebagai pelajaran untuk memperkuat ketahanan sistem otomasi dan prosedur penanganan gangguan
2 komentar
Katanya ini dampak susulan setelah karyawan senior dipangkas..benarkah?
Komentar Hacker News
Saya selalu mengulang hal yang sama tentang topik ini. Jika Anda belum membaca tulisan Richard Cook, saya sarankan berhenti membaca postmortem ini sekarang dan baca dulu How Complex Systems Fail. Itu salah satu tulisan teknis terbaik tentang kegagalan sistem kompleks. Cook menolak konsep akar penyebab (root cause) itu sendiri, dan saya rasa dalam insiden ini pun dia benar
Internet makin berubah menjadi jaringan tunggal yang terpusat (mononet). Internet yang lahir sebagai jaringan terdistribusi pada era Perang Dingin kini punya struktur di mana satu kesalahan deployment bisa menghentikan perbankan, belanja, dan perjalanan di seluruh dunia. Metafora cloud sudah melampaui batasnya.
Untuk startup atau R&D, itu masih berguna, tetapi perusahaan tahap pertumbuhan atau pemerintah seharusnya punya server sendiri, cloud sendiri, dan layanan inti sendiri. Teknologi dan SDM-nya sudah cukup
Di postmortem AWS, saya terkesan dengan visualisasi garis waktu yang akurat. Seperti presentasi legendaris GDC “I Shot You First”, cara mengekspresikan aliran waktu dengan panah miring sambil bertanya “di mana keterlambatan terjadi” sangat berguna.
Tetapi yang lebih mengejutkan bagi saya adalah bahwa layanan pengelolaan lease node EC2 tidak punya prosedur pemulihan (runbook). Untuk layanan inti AWS, saya kira hampir semua situasi pengecualian sudah diantisipasi
Inti insiden ini tampak seperti variasi dari masalah cache invalidation pada sistem DNS. Dua DNS Enactor menerapkan plan pada waktu yang berbeda sehingga terjadi race condition, lalu plan lama menimpa plan baru
Enactor seharusnya membandingkan versi record saat ini (CAS) sebelum menerapkan nilai baru. Meski kurang efisien, itu pengaman dasar. DynamoDB sendiri seharusnya bisa menanganinya
Saya kaget membaca penjelasan bahwa DynamoDB mengelola ratusan ribu record DNS per region. Bahwa
dynamodb.us-east-1.amazonaws.combisa di-resolve ke ratusan ribu IP terasa seperti melewati batas Route53. Mungkin caranya dengan menjaga TTL tetap rendah dan hanya memperbarui sebagianBug akan selalu ada. Verifikasi formal (formal verification) itu sulit, dan bug berprobabilitas rendah kadang baru meledak bertahun-tahun kemudian.
Karena itu, sistem harus dirancang dengan asumsi bahwa ia pasti gagal, lalu dibuat struktur untuk membatasi dampaknya. Arsitektur berbasis sel, rollout bertahap, dan zona terisolasi adalah contohnya.
AWS juga mencoba pendekatan berbasis sel, tetapi khususnya di us-east-1 masih ada ketergantungan silang warisan. Dalam jangka panjang, region harus dirancang sepenuhnya independen.
Pekerjaan seperti ini sulit berjalan tanpa dukungan eksekutif tingkat tinggi, tetapi dari sudut pandang pemegang saham ini adalah investasi penting untuk mengurangi risiko keberlangsungan perusahaan
Saya agak terkejut laporan ini memakai zona waktu PT, bukan UTC
Saya heran tidak ada pola seperti versioning per-endpoint atau 2PC, single writer lease. Meski begitu, saya sangat menghargai AWS yang mempublikasikan hal ini dengan transparan
Saya melihat penyebab langsung insiden ini adalah race condition laten di sistem manajemen DNS DynamoDB. Plan lama menimpa plan terbaru sehingga record DNS endpoint regional menjadi kosong
Referensi: How Complex Systems Fail