44 poin oleh GN⁺ 2025-10-21 | 8 komentar | Bagikan ke WhatsApp
  • Gangguan AWS di region US-EAST-1 kali ini dianalisis bukan sekadar cacat teknis, melainkan sinyal pelemahan organisasi akibat keluarnya personel inti
  • Penyebab gangguan ternyata tetap merupakan masalah DNS yang klasik, dan kesalahan endpoint API DynamoDB memicu terhentinya layanan lain secara berantai
  • Muncul indikasi bahwa insinyur veteran yang mengingat pola kegagalan sistem di masa lalu telah resign, sehingga kecepatan identifikasi masalah dan pemulihan melambat secara nyata
  • PHK besar-besaran di Amazon dan tingginya “regretted attrition” (69~81%) bekerja secara gabungan dan mengguncang stabilitas operasional AWS
  • Ini adalah krisis bukan karena teknologi yang menua, melainkan karena ketiadaan orang, dan ditafsirkan bukan sebagai “satu insiden” di AWS, melainkan pertanda awal runtuhnya kepercayaan secara berkelanjutan

Gangguan DNS dan penghentian layanan

  • Seperti lelucon lama di kalangan administrator sistem, "It's always DNS", banyak gangguan layanan memang selalu berpusat pada isu DNS
  • Pada 20 Oktober 2025 pukul 12:11AM (PDT), dilaporkan lonjakan tajam tingkat error layanan AWS di region US-EAST-1
    • 1:26AM, kegagalan permintaan ke endpoint DynamoDB mulai meluas
    • 2:01AM, dipastikan bahwa penyebabnya adalah kesalahan DNS resolution pada endpoint API DynamoDB, yang membuat banyak layanan bergantung ikut mengalami gangguan berantai
  • DynamoDB adalah layanan fondasi infrastruktur AWS, sehingga ketika layanan di region tersebut runtuh, dampaknya menjalar ke internet secara luas
    • Terjadi kelumpuhan besar pada perbankan, game, SNS, layanan pemerintah, belanja Amazon.com, dan lainnya
  • Dibutuhkan 75 menit sejak masalah dikenali hingga akar penyebab dipastikan; ini merupakan respons yang luar biasa lambat jika dibandingkan dengan tradisi AWS yang dikenal punya “kecepatan pemulihan teladan”
    • Lamanya waktu dari pengenalan gangguan hingga identifikasi akar masalah dianalisis lebih disebabkan kurangnya pengalaman ketimbang kurangnya transparansi
    • Selama periode itu, halaman status hanya menampilkan pesan “beroperasi normal”, sehingga memicu kritik dari komunitas

Terwujudnya “ramalan”: peringatan dari para mantan karyawan

  • Secara tradisional, AWS dikenal memiliki kemampuan operasional infrastruktur tingkat tinggi, sampai-sampai gangguan di satu region saja bisa menjadi isu besar; namun semakin tinggi kompleksitas dan semakin sering isu serupa masa lalu terulang, semakin penting pula pengalaman lapangan
  • Mantan insinyur AWS Justin Garrison telah memperingatkan saat keluar pada 2023 bahwa “large-scale event (LSE) sedang meningkat”
    • Ia memprediksi bahwa “gangguan besar akan terjadi pada 2024”, dan situasi kali ini dianggap membuktikan hal itu
  • Gelombang resign para teknolog senior di AWS terus berlanjut,
    dan bersama itu ikut hilang tribal knowledge (pengetahuan berbasis pengalaman internal) yang terakumulasi selama puluhan tahun
  • Dalam kasus gangguan DNS, yang dibutuhkan bukan sekadar orang yang tahu penyebab teknisnya,
    melainkan orang yang ingat apakah “sistem ini pernah memicu masalah serupa di masa lalu”
    • Namun orang-orang yang memiliki ingatan itu telah meninggalkan perusahaan akibat penolakan terhadap RTO (kebijakan kembali ke kantor) dan PHK

Bukti keluarnya talenta

  • Antara 2022 hingga 2025, lebih dari 27.000 karyawan Amazon telah terkena PHK,
    dan meski proporsi per divisi tidak diungkap, AWS juga diperkirakan terkena dampak langsung
  • Menurut dokumen internal, “regretted attrition” mencapai 69~81%,
    yang berarti orang-orang yang keluar adalah talenta yang sebenarnya ingin dipertahankan perusahaan
  • Ketidakpuasan akibat perintah kembali ke kantor (Return to Office) meledak,
    dan ada banyak laporan bahwa insinyur veteran berpengalaman hengkang dalam jumlah besar
  • Akibatnya, AWS direstrukturisasi menjadi tim berbiaya rendah dengan pengalaman yang minim,
    sehingga kemampuan untuk mengoperasikan infrastruktur kompleks kian melemah

Masalah struktural: pergeseran makna ‘Frugality’

  • Dahulu, nilai inti Amazon yaitu Frugality (hemat)
    adalah filosofi “memaksimalkan efisiensi dengan sumber daya terbatas”
  • Namun belakangan ini maknanya bergeser menjadi “menyelesaikan semua pekerjaan dengan nyaris tanpa sumber daya
    • Pengurangan tenaga kerja telah membuat pemeliharaan dasar pun menjadi sulit
  • Ini bukan masalah “karena teknologinya sudah tua”, melainkan karena orang yang merawatnya masih baru

Prospek ke depan

  • Pasar mungkin akan menerima gangguan ini sebagai kejadian satu kali, tetapi struktur masalahnya tetap ada
    • Personel berpengalaman pergi, kompleksitas sistem meningkat,
      dan terbentuklah siklus yang terus memperbesar kemungkinan “insiden berikutnya”
  • AWS kemungkinan besar akan mengumumkan peristiwa ini sebagai “gangguan tunggal yang terisolasi”,
    tetapi jika kekosongan internal terus menumpuk, risiko berulangnya gangguan besar serupa akan tinggi
  • Seperti ungkapan “chickens are coming home to roost”,
    hilangnya modal manusia, bukan teknologi, muncul sebagai risiko terbesar AWS

8 komentar

 
jjw9512151 2025-10-23

Ternyata hidup manusia di mana-mana sama saja..

 
shakespeares 2025-10-21

Ini cerita yang berlaku di semua pasar.
Rasanya know-how teknologi TI perlu diperlakukan mirip dengan keahlian seorang tukang las berpengalaman.

 
bus710 2025-10-21

Tulisan yang saya lihat belum lama ini mengingatkan saya pada pembahasan tentang betapa sulitnya naik dari senior engineer level 2 ke jenjang berikutnya di Amazon, entah kenapa.
Saya rasa kejadian seperti pensiun dengan penyesalan itu mungkin terutama sering terjadi di rentang tersebut.

 
botplaysdice 2025-10-23

Sebaliknya, di sisi lain ada juga yang mungkin berpikir, 'Sudah memangkas sebanyak itu, tapi ternyata situasinya bisa dipulihkan sampai sejauh ini...'

 
tujuc 2025-10-21

Di Korea, ketika para engineer sudah mencapai level tertentu, semuanya beralih menjadi manajer lalu jalurnya terputus...
Di AS, masalahnya adalah semua senior dipecat atas nama efisiensi...
Memang tidak mudah...

 
t7vonn 2025-10-21

Sampai multi-az sih sudah diterapkan.. apa jangan-jangan kita juga harus siap untuk gangguan di tingkat region..

 
skageektp 2025-10-22

Saya rasa perlu juga mempertimbangkan apakah biaya itu benar-benar lebih besar daripada biaya kerugiannya.

 
GN⁺ 2025-10-21
Komentar Hacker News
  • Di antara para engineer dan pekerja gudang, sekarang rasanya kalau mereka terus memecat karyawan seperti ini, hari ketika bahkan orang-orang yang pernah bekerja di perusahaan ini ikut pergi sepenuhnya sudah tidak lama lagi
    Sebanyak apa pun kandidat engineer H1-B yang tersedia dan jutaan pekerja gudang imigran ilegal, kalau perusahaan sebesar ini melakukan PHK massal dengan cepat, pada akhirnya cadangan sumber daya manusianya pasti akan habis
    Situasi ini mengingatkanku pada episode parodi Star Wars dari Robot Chicken. Di sana para perwira Imperial pura-pura mati saat Darth Vader melakukan Force choke agar tidak ditebas lightsaber, lalu kembali lagi dengan nama lain, tetapi Amazon lebih parah. Tidak ada yang ingin kembali lagi
    https://www.youtube.com/watch?v=fFihTRIxCkg

    • Sejujurnya, aku belum pernah melihat engineer yang benar-benar kompeten ingin bekerja lagi di Amazon untuk kedua kalinya

    • Memangnya benar ada sebanyak itu imigran ilegal di gudang? Setahuku Amazon mencocokkan identitas dan memeriksa dokumen dengan ketat, jadi meski kadang ada orang yang mencuri identitas, rasanya jumlahnya tidak akan sebanyak itu

    • Bukan cuma PHK yang jadi masalah, aku ingat saat Amazon mulai menerapkan RTO penuh, aku langsung dibombardir email dari para recruiter

    • Rasanya ada kecenderungan langsung berprasangka soal kemampuan engineer hanya karena status H-1B
      Dulu aku juga bekerja dengan H-1B, dan sekarang aku sudah kembali ke India dan membangun bisnisku sendiri. Aku juga alumnus Amazon. Tempat itu memang berat, tapi di pertengahan 90-an masih layak dijalani karena ada stock option
      Aku cukup yakin kemampuan coding-ku lebih baik daripada banyak orang di sini. Banyak juga orang H-1B di sekitarku yang benar-benar hebat
      Jangan berprasangka; nilai langsung kemampuannya. Kalau meremehkan pesaing, akhirnya yang rugi ya diri sendiri

  • Sekarang justru waktunya mempertahankan karyawan dan memberi mereka alat terbaik agar bisa bekerja dengan baik
    Tool pengembangan terus membaik setiap hari, dan meski sekarang mungkin bisa mengurangi jumlah orang, efeknya tidak akan langsung terlihat
    Itu sama saja menukar masa kini dengan pertumbuhan masa depan dan keberlanjutan organisasi. Berkhayal tidak akan membuat downsizing jadi lebih berhasil

    • Kenyataannya strategi itu tampak berhasil. Mereka memecat seperempat principal engineer junior, tetapi sahamnya naik, dan bahkan setelah insiden gangguan besar pun sahamnya malah naik lagi. Untuk saat ini strategi mereka terlihat berjalan

    • Bahkan perusahaan big tech yang dulu dianggap “baru” sekarang mulai memasuki masa menjadi korporasi tua seperti IBM

    • Bukan karena mereka tidak tahu turnover itu buruk, tapi sepertinya sejak awal mereka memang merancang medan permainan agar seluruh karyawan diratakan ke tingkat rata-rata dan dijadikan sumber daya manusia yang saling bisa menggantikan
      Sekarang bahkan sekadar menjadi sangat ahli pun sampai dianggap sebagai “budaya koboi”

  • Cukup mencurigakan bahwa penanganan gangguan yang nyata mulai berjalan tepat ketika jam mulai kerja di pantai barat AS dimulai
    Pembaruan sebelumnya hanya bilang “sedang dipantau, mitigasi sedang dilakukan” tanpa informasi konkret

    • Sepengetahuanku pemulihan terjadi sekitar pukul 4 pagi waktu Seattle. Jam kerja biasanya mulai pukul 9, jadi mungkin kalau dihitung dari New York penanganannya dimulai sekitar jam 6 pagi

    • Tulisan yang kubaca di Reddit pagi ini sekarang terasa jadi lebih bermakna

  • AWS masih merupakan cloud yang paling kusukai, dan aku memakainya dengan sangat efisien
    Aku juga pernah terpikir ingin bekerja di AWS setidaknya sekali, tetapi kalau beberapa kekhawatiran ini belum jelas teratasi, aku jadi banyak berpikir

  1. Desas-desus tentang budaya perusahaan yang keras, dan fakta bahwa manajer harus melindungi karyawan dari budaya itu (meski tidak bisa langsung memperbaiki seluruh Amazon atau seluruh white-collar workforce, setidaknya perlu ada arah di tim-tim AWS yang bisa membangun kepercayaan pencari kerja)
  2. Bahkan engineer berpengalaman pun wajib melewati coding screening yang tidak bermakna atau wawancara jawaban STAR soal leadership principles
    Kalau calon manajer bahkan tidak bisa melindungi kandidat dari proses seperti ini, timbul kekhawatiran bahwa mereka juga tidak akan bisa melindungi dari masalah budaya perusahaan yang lebih serius
  3. Peralihan ke RTO dan klaim bahwa itu ditangani dengan cara yang tidak sejalan dengan prinsip-prinsip tingkat tinggi
  4. Katanya baru setelah menjadi Principal seseorang bisa lepas dari on-call, tetapi bahkan begitu pun perlu dijaga agar rekan kerja tidak kelebihan beban, dan perlu perhatian agar perbedaan jadwal tidur tidak menimbulkan kecanggungan
    Ada gagasan yang rasanya berlaku untuk seluruh FAANG akhir-akhir ini: mereka perlu terus menanamkan ulang persepsi bahwa ini adalah tempat yang ingin dituju orang-orang yang benar-benar berbakat
    Meta membangun branding terutama lewat gaji yang lebih tinggi dan rilis open source serta open hardware, sementara Google menonjolkan keunggulan teknis dan budaya perusahaan yang hangat (a.k.a. budaya pembinaan karyawan baru, meski sekarang terasa lebih formalitas)
    AWS juga sebenarnya sudah punya banyak talenta teknis yang layak dibanggakan, dan menurutku mereka perlu berinvestasi dalam menarik serta mempertahankan orang-orang ini, sambil secara aktif menunjukkan citra itu ke industri
  • Aku pernah melihat hal yang sama terjadi di startup
    Setelah akuisisi, talenta inti sering pergi setelah saham mereka vested, atau disingkirkan agar perusahaan besar bisa menaruh orang lain di kursi mereka
    Orang-orang yang benar-benar paham teknologinya pun pergi semua, dan yang tersisa akhirnya hanya codebase berantakan yang tidak bisa dipelihara, sampai muncul masalah yang tak seorang pun tahu cara memperbaikinya

  • Aku sangat suka bagaimana El Reg tepat mengenai inti persoalannya

    • Baru sadar sekarang bahwa penulis artikelnya adalah Corey Quinn, yang memang sudah sering menulis tentang AWS

    • Aku juga suka cara para penulisnya menjaga unsur wit dan kepribadian dalam tulisan mereka

    • Orang-orang ini selalu bisa menusuk tepat ke esensi persoalan apa pun

  • “Masalah terjadi dan dalam 75 menit penyebabnya berhasil dipersempit ke endpoint layanan tertentu”
    Apa itu memang selama itu? Aku bukan orang web development, tapi rasanya menemukan letak masalah dalam 75 menit itu cukup cepat
    Waktu dulu aku bekerja sebagai firmware engineer, kadang butuh berminggu-minggu hanya untuk menemukan bagian mana yang rusak

    • Kalau frekuensi masalahnya cuma 0,01%, tidak punya korelasi apa pun, dan hilang kalau di-retry, memang benar bisa makan waktu berminggu-minggu
      Tapi kasus seperti itu biasanya bukan insiden prioritas tinggi; kecelakaan yang benar-benar mendesak biasanya bisa direproduksi dan berupa sesuatu yang satu jam sebelumnya baik-baik saja lalu tiba-tiba meledak
      Secara umum, kalau sistem inti bisnis dirancang dengan baik, diagnosisnya tidak akan memakan lebih dari 75 menit. Tentu, memperbaikinya bisa butuh waktu lebih lama dari itu
      Meski tentu saja sulit bilang bahwa sistem ideal seperti itu umum ditemui di dunia nyata

    • Di perusahaan biasa, 75 menit mungkin tidak lama. Tapi kalau yang lumpuh adalah banyak bagian internet karena cloud terbesar di dunia, ceritanya jadi berbeda

    • Sebenarnya di pengumuman resmi memang ditulis ‘masih diselidiki’, tetapi bisa jadi secara internal mereka sudah memperkirakan penyebabnya lebih cepat dari itu
      Masuk akal untuk berhati-hati, karena kalau pembaruan dirilis terlalu tergesa-gesa, pengguna bisa salah paham tanpa perlu

    • Menurutku 75 menit itu nyaris level terbaik untuk diagnosis masalah besar apa pun

    • Amazon dikenal memiliki infrastruktur kelas atas di industri
      Karena banyak perusahaan lain memakai infrastruktur Amazon, wajar jika orang berharap talenta level SRE di sana bisa menangkap insiden seperti ini dengan sangat cepat

  • Pengetahuan pengalaman dan know-how yang perlahan menghilang dari organisasi justru adalah nilai yang benar-benar penting, dan itu bahkan sulit dituangkan begitu saja ke lembar Excel

    • Tapi kalau begitu, setidaknya kita perlu tahu itu setara dengan berapa baris kode, atau minimal jumlah tokennya, supaya bisa dijadikan bahan pertimbangan saat PHK!
  • Di dalam organisasi, orang yang lebih memprioritaskan membangun merek pribadi atau perekrutan seremonial mulai diutamakan dibanding orang yang benar-benar ahli dan pakar jangka panjang, sementara inti tenaga teknis yang sungguh memahami sistem mulai tersisih
    Ketika ketimpangan seperti ini membesar di AWS, selebritas LinkedIn dan orang-orang DEI berbasis checklist mulai mengalahkan para builder yang sesungguhnya, dan kualitas eksekusi, rasa tanggung jawab, serta ketuntasan teknis perlahan melemah
    Sekarang tampaknya semakin jelas bahwa kepemimpinan Andy Jassy tidak efektif, dan mungkin tak lama lagi Wall Street akan secara resmi menuntut pergantian dirinya

    • Aneh juga menyalahkan DEI atas gangguan ini tanpa satu pun bukti
  • Tentang anggapan bahwa The Register adalah media yang dihormati, entah kenapa rasanya mereka sendiri justru tidak ingin disebut seperti itu…