- Gangguan AWS di region US-EAST-1 kali ini dianalisis bukan sekadar cacat teknis, melainkan sinyal pelemahan organisasi akibat keluarnya personel inti
- Penyebab gangguan ternyata tetap merupakan masalah DNS yang klasik, dan kesalahan endpoint API DynamoDB memicu terhentinya layanan lain secara berantai
- Muncul indikasi bahwa insinyur veteran yang mengingat pola kegagalan sistem di masa lalu telah resign, sehingga kecepatan identifikasi masalah dan pemulihan melambat secara nyata
- PHK besar-besaran di Amazon dan tingginya “regretted attrition” (69~81%) bekerja secara gabungan dan mengguncang stabilitas operasional AWS
- Ini adalah krisis bukan karena teknologi yang menua, melainkan karena ketiadaan orang, dan ditafsirkan bukan sebagai “satu insiden” di AWS, melainkan pertanda awal runtuhnya kepercayaan secara berkelanjutan
Gangguan DNS dan penghentian layanan
- Seperti lelucon lama di kalangan administrator sistem, "It's always DNS", banyak gangguan layanan memang selalu berpusat pada isu DNS
- Pada 20 Oktober 2025 pukul 12:11AM (PDT), dilaporkan lonjakan tajam tingkat error layanan AWS di region US-EAST-1
- 1:26AM, kegagalan permintaan ke endpoint DynamoDB mulai meluas
- 2:01AM, dipastikan bahwa penyebabnya adalah kesalahan DNS resolution pada endpoint API DynamoDB, yang membuat banyak layanan bergantung ikut mengalami gangguan berantai
- DynamoDB adalah layanan fondasi infrastruktur AWS, sehingga ketika layanan di region tersebut runtuh, dampaknya menjalar ke internet secara luas
- Terjadi kelumpuhan besar pada perbankan, game, SNS, layanan pemerintah, belanja Amazon.com, dan lainnya
- Dibutuhkan 75 menit sejak masalah dikenali hingga akar penyebab dipastikan; ini merupakan respons yang luar biasa lambat jika dibandingkan dengan tradisi AWS yang dikenal punya “kecepatan pemulihan teladan”
- Lamanya waktu dari pengenalan gangguan hingga identifikasi akar masalah dianalisis lebih disebabkan kurangnya pengalaman ketimbang kurangnya transparansi
- Selama periode itu, halaman status hanya menampilkan pesan “beroperasi normal”, sehingga memicu kritik dari komunitas
Terwujudnya “ramalan”: peringatan dari para mantan karyawan
- Secara tradisional, AWS dikenal memiliki kemampuan operasional infrastruktur tingkat tinggi, sampai-sampai gangguan di satu region saja bisa menjadi isu besar; namun semakin tinggi kompleksitas dan semakin sering isu serupa masa lalu terulang, semakin penting pula pengalaman lapangan
- Mantan insinyur AWS Justin Garrison telah memperingatkan saat keluar pada 2023 bahwa “large-scale event (LSE) sedang meningkat”
- Ia memprediksi bahwa “gangguan besar akan terjadi pada 2024”, dan situasi kali ini dianggap membuktikan hal itu
- Gelombang resign para teknolog senior di AWS terus berlanjut,
dan bersama itu ikut hilang tribal knowledge (pengetahuan berbasis pengalaman internal) yang terakumulasi selama puluhan tahun
- Dalam kasus gangguan DNS, yang dibutuhkan bukan sekadar orang yang tahu penyebab teknisnya,
melainkan orang yang ingat apakah “sistem ini pernah memicu masalah serupa di masa lalu”
- Namun orang-orang yang memiliki ingatan itu telah meninggalkan perusahaan akibat penolakan terhadap RTO (kebijakan kembali ke kantor) dan PHK
Bukti keluarnya talenta
- Antara 2022 hingga 2025, lebih dari 27.000 karyawan Amazon telah terkena PHK,
dan meski proporsi per divisi tidak diungkap, AWS juga diperkirakan terkena dampak langsung
- Menurut dokumen internal, “regretted attrition” mencapai 69~81%,
yang berarti orang-orang yang keluar adalah talenta yang sebenarnya ingin dipertahankan perusahaan
- Ketidakpuasan akibat perintah kembali ke kantor (Return to Office) meledak,
dan ada banyak laporan bahwa insinyur veteran berpengalaman hengkang dalam jumlah besar
- Akibatnya, AWS direstrukturisasi menjadi tim berbiaya rendah dengan pengalaman yang minim,
sehingga kemampuan untuk mengoperasikan infrastruktur kompleks kian melemah
Masalah struktural: pergeseran makna ‘Frugality’
- Dahulu, nilai inti Amazon yaitu Frugality (hemat)
adalah filosofi “memaksimalkan efisiensi dengan sumber daya terbatas”
- Namun belakangan ini maknanya bergeser menjadi “menyelesaikan semua pekerjaan dengan nyaris tanpa sumber daya”
- Pengurangan tenaga kerja telah membuat pemeliharaan dasar pun menjadi sulit
- Ini bukan masalah “karena teknologinya sudah tua”, melainkan karena orang yang merawatnya masih baru
Prospek ke depan
- Pasar mungkin akan menerima gangguan ini sebagai kejadian satu kali, tetapi struktur masalahnya tetap ada
- Personel berpengalaman pergi, kompleksitas sistem meningkat,
dan terbentuklah siklus yang terus memperbesar kemungkinan “insiden berikutnya”
- AWS kemungkinan besar akan mengumumkan peristiwa ini sebagai “gangguan tunggal yang terisolasi”,
tetapi jika kekosongan internal terus menumpuk, risiko berulangnya gangguan besar serupa akan tinggi
- Seperti ungkapan “chickens are coming home to roost”,
hilangnya modal manusia, bukan teknologi, muncul sebagai risiko terbesar AWS
8 komentar
Ternyata hidup manusia di mana-mana sama saja..
Ini cerita yang berlaku di semua pasar.
Rasanya know-how teknologi TI perlu diperlakukan mirip dengan keahlian seorang tukang las berpengalaman.
Tulisan yang saya lihat belum lama ini mengingatkan saya pada pembahasan tentang betapa sulitnya naik dari senior engineer level 2 ke jenjang berikutnya di Amazon, entah kenapa.
Saya rasa kejadian seperti pensiun dengan penyesalan itu mungkin terutama sering terjadi di rentang tersebut.
Sebaliknya, di sisi lain ada juga yang mungkin berpikir, 'Sudah memangkas sebanyak itu, tapi ternyata situasinya bisa dipulihkan sampai sejauh ini...'
Di Korea, ketika para engineer sudah mencapai level tertentu, semuanya beralih menjadi manajer lalu jalurnya terputus...
Di AS, masalahnya adalah semua senior dipecat atas nama efisiensi...
Memang tidak mudah...
Sampai multi-az sih sudah diterapkan.. apa jangan-jangan kita juga harus siap untuk gangguan di tingkat region..
Saya rasa perlu juga mempertimbangkan apakah biaya itu benar-benar lebih besar daripada biaya kerugiannya.
Komentar Hacker News
Di antara para engineer dan pekerja gudang, sekarang rasanya kalau mereka terus memecat karyawan seperti ini, hari ketika bahkan orang-orang yang pernah bekerja di perusahaan ini ikut pergi sepenuhnya sudah tidak lama lagi
Sebanyak apa pun kandidat engineer H1-B yang tersedia dan jutaan pekerja gudang imigran ilegal, kalau perusahaan sebesar ini melakukan PHK massal dengan cepat, pada akhirnya cadangan sumber daya manusianya pasti akan habis
Situasi ini mengingatkanku pada episode parodi Star Wars dari Robot Chicken. Di sana para perwira Imperial pura-pura mati saat Darth Vader melakukan Force choke agar tidak ditebas lightsaber, lalu kembali lagi dengan nama lain, tetapi Amazon lebih parah. Tidak ada yang ingin kembali lagi
https://www.youtube.com/watch?v=fFihTRIxCkg
Sejujurnya, aku belum pernah melihat engineer yang benar-benar kompeten ingin bekerja lagi di Amazon untuk kedua kalinya
Memangnya benar ada sebanyak itu imigran ilegal di gudang? Setahuku Amazon mencocokkan identitas dan memeriksa dokumen dengan ketat, jadi meski kadang ada orang yang mencuri identitas, rasanya jumlahnya tidak akan sebanyak itu
Bukan cuma PHK yang jadi masalah, aku ingat saat Amazon mulai menerapkan RTO penuh, aku langsung dibombardir email dari para recruiter
Rasanya ada kecenderungan langsung berprasangka soal kemampuan engineer hanya karena status H-1B
Dulu aku juga bekerja dengan H-1B, dan sekarang aku sudah kembali ke India dan membangun bisnisku sendiri. Aku juga alumnus Amazon. Tempat itu memang berat, tapi di pertengahan 90-an masih layak dijalani karena ada stock option
Aku cukup yakin kemampuan coding-ku lebih baik daripada banyak orang di sini. Banyak juga orang H-1B di sekitarku yang benar-benar hebat
Jangan berprasangka; nilai langsung kemampuannya. Kalau meremehkan pesaing, akhirnya yang rugi ya diri sendiri
Sekarang justru waktunya mempertahankan karyawan dan memberi mereka alat terbaik agar bisa bekerja dengan baik
Tool pengembangan terus membaik setiap hari, dan meski sekarang mungkin bisa mengurangi jumlah orang, efeknya tidak akan langsung terlihat
Itu sama saja menukar masa kini dengan pertumbuhan masa depan dan keberlanjutan organisasi. Berkhayal tidak akan membuat downsizing jadi lebih berhasil
Kenyataannya strategi itu tampak berhasil. Mereka memecat seperempat principal engineer junior, tetapi sahamnya naik, dan bahkan setelah insiden gangguan besar pun sahamnya malah naik lagi. Untuk saat ini strategi mereka terlihat berjalan
Bahkan perusahaan big tech yang dulu dianggap “baru” sekarang mulai memasuki masa menjadi korporasi tua seperti IBM
Bukan karena mereka tidak tahu turnover itu buruk, tapi sepertinya sejak awal mereka memang merancang medan permainan agar seluruh karyawan diratakan ke tingkat rata-rata dan dijadikan sumber daya manusia yang saling bisa menggantikan
Sekarang bahkan sekadar menjadi sangat ahli pun sampai dianggap sebagai “budaya koboi”
Cukup mencurigakan bahwa penanganan gangguan yang nyata mulai berjalan tepat ketika jam mulai kerja di pantai barat AS dimulai
Pembaruan sebelumnya hanya bilang “sedang dipantau, mitigasi sedang dilakukan” tanpa informasi konkret
Sepengetahuanku pemulihan terjadi sekitar pukul 4 pagi waktu Seattle. Jam kerja biasanya mulai pukul 9, jadi mungkin kalau dihitung dari New York penanganannya dimulai sekitar jam 6 pagi
Tulisan yang kubaca di Reddit pagi ini sekarang terasa jadi lebih bermakna
AWS masih merupakan cloud yang paling kusukai, dan aku memakainya dengan sangat efisien
Aku juga pernah terpikir ingin bekerja di AWS setidaknya sekali, tetapi kalau beberapa kekhawatiran ini belum jelas teratasi, aku jadi banyak berpikir
Kalau calon manajer bahkan tidak bisa melindungi kandidat dari proses seperti ini, timbul kekhawatiran bahwa mereka juga tidak akan bisa melindungi dari masalah budaya perusahaan yang lebih serius
Ada gagasan yang rasanya berlaku untuk seluruh FAANG akhir-akhir ini: mereka perlu terus menanamkan ulang persepsi bahwa ini adalah tempat yang ingin dituju orang-orang yang benar-benar berbakat
Meta membangun branding terutama lewat gaji yang lebih tinggi dan rilis open source serta open hardware, sementara Google menonjolkan keunggulan teknis dan budaya perusahaan yang hangat (a.k.a. budaya pembinaan karyawan baru, meski sekarang terasa lebih formalitas)
AWS juga sebenarnya sudah punya banyak talenta teknis yang layak dibanggakan, dan menurutku mereka perlu berinvestasi dalam menarik serta mempertahankan orang-orang ini, sambil secara aktif menunjukkan citra itu ke industri
Aku pernah melihat hal yang sama terjadi di startup
Setelah akuisisi, talenta inti sering pergi setelah saham mereka vested, atau disingkirkan agar perusahaan besar bisa menaruh orang lain di kursi mereka
Orang-orang yang benar-benar paham teknologinya pun pergi semua, dan yang tersisa akhirnya hanya codebase berantakan yang tidak bisa dipelihara, sampai muncul masalah yang tak seorang pun tahu cara memperbaikinya
Aku sangat suka bagaimana El Reg tepat mengenai inti persoalannya
Baru sadar sekarang bahwa penulis artikelnya adalah Corey Quinn, yang memang sudah sering menulis tentang AWS
Aku juga suka cara para penulisnya menjaga unsur wit dan kepribadian dalam tulisan mereka
Orang-orang ini selalu bisa menusuk tepat ke esensi persoalan apa pun
“Masalah terjadi dan dalam 75 menit penyebabnya berhasil dipersempit ke endpoint layanan tertentu”
Apa itu memang selama itu? Aku bukan orang web development, tapi rasanya menemukan letak masalah dalam 75 menit itu cukup cepat
Waktu dulu aku bekerja sebagai firmware engineer, kadang butuh berminggu-minggu hanya untuk menemukan bagian mana yang rusak
Kalau frekuensi masalahnya cuma 0,01%, tidak punya korelasi apa pun, dan hilang kalau di-retry, memang benar bisa makan waktu berminggu-minggu
Tapi kasus seperti itu biasanya bukan insiden prioritas tinggi; kecelakaan yang benar-benar mendesak biasanya bisa direproduksi dan berupa sesuatu yang satu jam sebelumnya baik-baik saja lalu tiba-tiba meledak
Secara umum, kalau sistem inti bisnis dirancang dengan baik, diagnosisnya tidak akan memakan lebih dari 75 menit. Tentu, memperbaikinya bisa butuh waktu lebih lama dari itu
Meski tentu saja sulit bilang bahwa sistem ideal seperti itu umum ditemui di dunia nyata
Di perusahaan biasa, 75 menit mungkin tidak lama. Tapi kalau yang lumpuh adalah banyak bagian internet karena cloud terbesar di dunia, ceritanya jadi berbeda
Sebenarnya di pengumuman resmi memang ditulis ‘masih diselidiki’, tetapi bisa jadi secara internal mereka sudah memperkirakan penyebabnya lebih cepat dari itu
Masuk akal untuk berhati-hati, karena kalau pembaruan dirilis terlalu tergesa-gesa, pengguna bisa salah paham tanpa perlu
Menurutku 75 menit itu nyaris level terbaik untuk diagnosis masalah besar apa pun
Amazon dikenal memiliki infrastruktur kelas atas di industri
Karena banyak perusahaan lain memakai infrastruktur Amazon, wajar jika orang berharap talenta level SRE di sana bisa menangkap insiden seperti ini dengan sangat cepat
Pengetahuan pengalaman dan know-how yang perlahan menghilang dari organisasi justru adalah nilai yang benar-benar penting, dan itu bahkan sulit dituangkan begitu saja ke lembar Excel
Di dalam organisasi, orang yang lebih memprioritaskan membangun merek pribadi atau perekrutan seremonial mulai diutamakan dibanding orang yang benar-benar ahli dan pakar jangka panjang, sementara inti tenaga teknis yang sungguh memahami sistem mulai tersisih
Ketika ketimpangan seperti ini membesar di AWS, selebritas LinkedIn dan orang-orang DEI berbasis checklist mulai mengalahkan para builder yang sesungguhnya, dan kualitas eksekusi, rasa tanggung jawab, serta ketuntasan teknis perlahan melemah
Sekarang tampaknya semakin jelas bahwa kepemimpinan Andy Jassy tidak efektif, dan mungkin tak lama lagi Wall Street akan secara resmi menuntut pergantian dirinya
Tentang anggapan bahwa The Register adalah media yang dihormati, entah kenapa rasanya mereka sendiri justru tidak ingin disebut seperti itu…