1 poin oleh GN⁺ 1 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • AWS melaporkan masalah operasional sejak Kamis malam, dan gangguan yang terkait dengan panas berlebih di pusat data wilayah US-East-1 Virginia Utara memengaruhi platform perdagangan seperti Coinbase dan FanDuel
  • Dalam pembaruan pada Jumat pukul 3.29 sore (ET), AWS menyatakan pemulihan penuh masih diperkirakan memerlukan beberapa jam lagi, dan proses pemulihan berjalan lebih lambat dari perkiraan sebelumnya
  • AWS menjelaskan bahwa masalah terjadi di satu Availability Zone di wilayah tersebut, dan mereka sedang memulihkan perangkat keras yang tersisa dengan mengaktifkan kapasitas sistem pendingin tambahan
  • FanDuel menyatakan bahwa setelah menyelidiki kesulitan teknis yang membuat pengguna tidak bisa mengakses platform, masalah itu terhubung dengan gangguan AWS yang lebih luas; para pengguna pun memprotes karena mengalami kerugian taruhan akibat tidak bisa melakukan cash out
  • Coinbase menyatakan bahwa gangguan di beberapa area AWS menyebabkan gangguan berkepanjangan pada layanan perdagangan inti, dan memposting bahwa masalah utama telah sepenuhnya diselesaikan

Progres pemulihan

  • Dalam pembaruan Jumat pukul 9.51 pagi (ET), AWS menyatakan, “Kami sedang bekerja secara aktif untuk mengaktifkan kapasitas sistem pendingin tambahan, yang akan memungkinkan kami memulihkan perangkat keras yang tersisa di area yang terdampak”
  • AWS sedang menangani gangguan pada instance EC2 yang menyediakan kapasitas server virtual
  • Dasbor kesehatan AWS pertama kali memposting pada Kamis pukul 8.25 malam (ET) bahwa mereka “sedang menyelidiki gangguan instance”
  • AWS tidak memberikan pernyataan tambahan

Dampak per layanan

  • FanDuel menyatakan di X pada Kamis pukul 9 malam (ET) bahwa mereka mengetahui adanya kesulitan teknis saat ini yang membuat pengguna tidak bisa mengakses platform dan sedang menyelidikinya
  • Sekitar 2 jam kemudian, FanDuel memperbarui bahwa masalah tersebut terhubung dengan gangguan AWS yang lebih luas
  • Pengguna FanDuel memprotes karena mereka tidak bisa melakukan cash out di platform dan mengalami kerugian taruhan
  • Coinbase juga memposting di X pada Jumat bahwa gangguan di beberapa area AWS menyebabkan “gangguan berkepanjangan pada layanan perdagangan inti”
  • Coinbase menyatakan dalam posting tersebut bahwa masalah utama telah sepenuhnya diselesaikan

Konteks pasar cloud

  • AWS menguasai sekitar sepertiga pasar teknologi infrastruktur cloud
  • AWS melayani jutaan perusahaan

1 komentar

 
GN⁺ 1 jam lalu
Komentar Hacker News
  • AWS US-East 1 tetap menjadi tumit Achilles internet
    Memang bisa membangun lintas beberapa region dan availability zone, tetapi AWS berulang kali mengalami insiden di mana masalah di US-East 1 berdampak lebih luas, membuat redundansi dan ketahanannya tidak setinggi yang diisyaratkan AWS

    • Gagasan bahwa layanan AWS sepenuhnya terisolasi per region sejak awal nyaris selalu lebih dekat ke mitos
      Semua layanan identitas dan akses di public cloud di luar Tiongkok, yaitu yang oleh karyawan disebut “IAM untuk partisi aws”, dipusatkan di us-east-1. Untuk melihat akun, penagihan, dan izin secara konsisten, sentralisasi seperti ini pada praktiknya memang diperlukan
      IAM juga bukan tumpukan perangkat lunak yang sepenuhnya independen, dan bergantung pada beberapa layanan seperti DynamoDB, sementara layanan-layanan itu pada gilirannya punya ketergantungan siklik pada IAM
      Saat terjadi outage di us-east-1, kadang masih mungkin terus memakai token atau sesi autentikasi yang sudah ada di region lain, tetapi token baru bisa jadi tidak dapat diterbitkan. Saya bahkan ingat di tempat kerja lama pernah diberi tahu ke on-call agar jangan menutup sesi SSH atau tab browser AWS Console karena mereka bisa terkunci sampai outage berakhir
    • Semua orang bilang begitu, tetapi kali ini masalahnya ada di satu availability zone
      Selama tiga tahun terakhir saya hampir sepenuhnya menjalankan startup di use-1, dan outage tingkat region hanya terjadi sekali, itupun outage parsial jadi sebagian besar instance tidak terdampak
      Sejujurnya, karena milik para pelanggan juga semuanya ada di use-1, ada keuntungan bahwa outage punya korelasi dengan pelanggan
    • Terlalu banyak orang yang memakainya
      Di negeri dongeng ajaib, beban tersebar merata ke beberapa penyedia cloud, dan tidak ada single point of failure
      Hubungan dengan pacar pertama juga berjalan baik, anak kembar fasih bahasa Inggris dan Korea, dan kita juga tahu bahwa saat menerapkan layanan skala besar kita tidak boleh hanya bergantung pada satu AWS
      Biaya kesehatan di Amerika juga terjangkau. Tapi kenyataannya hari demi hari berlalu, dan satu AWS US-East 1 masih bisa menjatuhkan sebagian besar internet
    • Jika memakai beberapa region dan availability zone demi ketahanan, bersiaplah membayar pajak kapasitas
      Untuk 2 region perlu kapasitas 2x, untuk 3 region perlu kapasitas 1,5x, dan dalam konfigurasi multi-region mesin harus sudah berjalan sejak awal. Jangan berharap bisa menyalakan instance atau mengamankan kapasitas saat outage terjadi, dan kompleksitas tambahan hosting multi-region juga harus ditanggung
    • Dari yang saya dengar, tampaknya ada efek berantai sampai ke us-east-2 karena orang-orang yang pindah dari us-east-1
      Agak lucu melihat konfigurasi multi-region/multi-AZ terlihat begitu jelas seperti formalitas kosong, tetapi tetap dipercaya bersama-sama layaknya kredo agama cloud
  • Taruhan seperti ini berbahaya. Karena orang seperti pegawai yang bisa menjatuhkan AWS bisa ikut bertaruh
    Taruhan seperti ini tidak seaman kelihatannya, karena sering kali orang yang memasang taruhan juga bisa memengaruhi atau mengubah hasilnya

    • Untung sekali Big Tech merekrut insinyur yang beretika, bukan orang yang cuma peduli uang atau status sosial
    • Tapi kalau semua situs taruhan ternyata berjalan di atas US-East1, ya percuma
    • Mudah dibayangkan juga AWS turun dan situs taruhan itu sendiri ikut tutup
      Secara umum saya setuju dengan argumen bahwa pasar prediksi seperti ini bisa mendorong insider trading dan skenario negatif. Ada insentif untuk mengambil untung dari situasi seperti itu
  • Pendinginan data center seharusnya hampir selalu direncanakan sebelumnya, dan saya kira mereka tidak akan memasang lebih banyak daripada yang bisa didinginkan
    Di sini saya penasaran apakah yang rusak adalah peralatan pendingin, apakah ada penyebab eksternal untuk overheating, atau apakah Amazon melakukan overbooking kapasitas pendinginan data center

    • Saya pernah bekerja di data center yang punya banyak chiller redundan di atap dan banyak unit pendingin redundan di tiap lantai, tetapi entah bagaimana pipa suplai air rusak dan pendinginan seluruh gedung berhenti sekaligus
      Mereka tidak menjelaskan penyebab detailnya, tetapi tampaknya pipa antara tiap lantai dan atap tidak dibuat redundan, dan perbaikannya memakan hampir 24 jam
    • Hampir pasti ini masalah kegagalan peralatan
      Pendinginan data center, seperti hal lain, sekaligus mengalami overprovision dan underprovision
      Peralatan penukar panas besar dibuat N+1, dan untuk fasilitas beban kecil yang sangat penting bahkan disusun 2N/3N, jadi itu overprovision. Sebabnya, sistem ini harus dimatikan untuk inspeksi rutin, punya tingkat kegagalan lebih tinggi daripada komponen data center tradisional, dan butuh perbaikan mekanis oleh tenaga spesialis dengan waktu pengadaan yang lama
      Di fasilitas besar, makin besar nilai N, makin tidak aneh juga jika pendinginannya N+3 atau lebih. Selalu ada sesuatu yang sedang dirawat, atau ada perangkat yang menunggu suku cadang karena komponennya sudah tidak diproduksi lagi dan harus dibuat ulang di bengkel, yang masih lebih murah daripada mengganti seluruh peralatan
      Sebaliknya, jika seluruh kapasitas komputasi fasilitas tiba-tiba naik dari pemakaian daya rata-rata ke 100%, kapasitas pendinginan akan terlampaui, jadi ini juga underprovision. Jalur listrik dan jalur lain juga sering kelebihan beban, dan secara alami industri ini memang dekat dengan over-selling
      Biasanya itu bukan masalah besar. Beban komputasi jarang melonjak ke 100% dari kapasitas total, dan kalaupun melonjak tidak berlangsung lama, serta fasilitas tidak dibangun dengan kapasitas pendinginan atau listrik pas-pasan di ambang batas
      Masalah muncul saat beberapa kejadian bertabrakan. Sistem pendinginan dirancang untuk menangani 200% dari beban rata-rata agar ada ruang cukup untuk maintenance dan kegagalan
      Pada hari Selasa teknisi datang memeriksa satu unit, menemukan bearing rusak, lalu mematikan peralatan semalaman agar tidak berisiko merusak fan assembly karena suku cadang harus didatangkan dari negara bagian lain
      Dua unit pendingin di sebelahnya lalu bekerja sedikit lebih keras, dan salah satunya ternyata punya motor agak tidak seimbang atau fuse yang longgar lalu memanas, sehingga komponen yang selama bertahun-tahun bertahan akhirnya jebol karena peningkatan duty cycle
      Sekarang di fasilitas N+2, dua unit hilang, tetapi karena acuannya 200% dari beban rata-rata, itu belum fatal
      Jika unit ketiga di sisi berlawanan dari unit pertama juga memunculkan cacat saat bebannya naik, maka di fasilitas N+2 tiga unit hilang. Meski begitu, karena dirancang untuk 200% dari beban rata-rata, ini masih belum jadi bencana besar
      Tetapi saat itu jam 4 pagi, operator di lokasi tidak bisa memperbaiki cacat itu, dan vendor baru bangun pukul 7 lalu tiba pukul 9. Sementara itu beban mulai naik
      Hal seperti ini terjadi setiap hari di suatu data center di Amerika, dan mungkin setahun sekali di setiap data center
      Yang kemudian menjadi berita adalah pertemuan dengan kejadian berikutnya. Satu pelanggan besar memutuskan ini saat yang tepat untuk memulai pekerjaan batch besar. Ada perusahaan fintech yang menjalankan model besar sebelum pasar buka, atau perusahaan minyak yang melakukan analisis cepat atas ladang baru
      10.000 VM baru dinyalakan. Dalam kondisi normal tidak apa-apa karena masih ada kapasitas sisa
      Tetapi pendinginan hanya direncanakan untuk 200% dari kapasitas pendinginan rata-rata, dan node kali ini bukan node yang sekadar cukup sibuk, melainkan node yang menjalankan komputasi numerik intensif yang dioptimalkan sehingga menarik daya maksimum dan membuang panas maksimum
      Jadi bukan hanya bebannya besar jika dihitung dari total jumlah mesin, dampak panas buangan rata-ratanya juga besar. Lalu kegagalan berantai mulai terjadi dan pendinginan turun menjadi N-4
      Kipas server mulai berputar lebih cepat dan memakai listrik lebih banyak, pendinginan menjadi N-5. Alarm berbunyi di mana-mana
      Mekanisme pengaman pada unit pendingin aktif satu per satu karena beban dan kenaikan tekanan refrigeran, lalu pendinginan menjadi N-6, N-7, dan akhirnya 0
    • Satu loop pendinginan data center mengalami kegagalan
    • Topik serupa enak didengar di sini: https://signalsandthreads.com/the-thermodynamics-of-trading/
  • Saya penasaran apakah di EU tahun ini Hetzner punya uptime yang lebih baik daripada AWS

    • Saya tidak paham kenapa OVH tidak lebih disukai
      UI Hetzner terasa terlalu membingungkan sehingga sulit dikelola
  • Tulisan terkait: AWS EC2 outage in use1-az4 (us-east-1)
    https://news.ycombinator.com/item?id=48057294

  • Selalu East 1. Bercanda aside, saya tidak mengerti kenapa east-1 jauh lebih sering tumbang dibanding region lain
    Dari sisi arsitektur rasanya seharusnya cukup mirip dengan region-region lain

    • Saya rasa east one adalah data center inti sekaligus yang paling tua
      Bebannya mungkin lebih besar daripada region lain, dan saat pertama dibangun pengalamannya juga masih minim, jadi kemungkinan punya lebih banyak utang teknis dan utang arsitektur/engineering
      Kalau tidak salah ada juga layanan yang bergantung pada east-1 sebagai single point of failure, seperti IAM atau sebagian konfigurasi S3
    • Ini adalah sistem region tertua dan punya peran penting secara struktural, seperti otoritas sertifikasi internal berada di sana
    • Menariknya, ada tulisan seperti ini

      AWS in 2025: The Stuff You Think You Know That’s Now Wrong
      us-east-1 is no longer a merrily burning dumpster fire of sadness and regret.
      https://www.lastweekinaws.com/blog/aws-in-2025-the-stuff-you...
      Selain itu artikelnya bagus

  • Coinbase mengatakan beberapa availability zone ikut turun, tetapi pengumuman AWS menyebut hanya satu availability zone yang terdampak
    Saya penasaran apakah ada yang tahu detailnya

    • Coinbase mengonfirmasi di X bahwa exchange mereka dijalankan hanya di satu availability zone karena latensi: https://x.com/i/status/2052855725857329254
    • Jangan percaya perusahaan kripto akan jujur
    • Saya tidak menemukan sumber resmi, tetapi tampaknya blast radius tidak benar-benar terbatas pada availability zone itu saja
      Saya menjalankan sistem di us-east-1, dan selama insiden terlihat masalah koneksi intermiten yang sulit dijelaskan dan belum pernah saya lihat sebelumnya bahkan di luar az4
    • Kalau East-1 turun, sebagian availability zone lain selalu ikut terdampak. Selalu ada sesuatu yang bergantung pada East-1
    • Saya mengawasi grafik SLI sepanjang malam karena sempat mengira seluruh region akan tumbang, tetapi ternyata tidak
      Hanya beberapa volume EBS single-AZ di sejumlah environment yang sedikit memburuk, jadi ini memang jelas masalah satu availability zone saja (use-az4)
  • Saya pernah melihat ungkapan “kalau dia teman, dia tidak akan membiarkan temannya memakai USE1”, dan ketika muncul pesan di Slack bahwa USE1 dan semua yang dideploy di sana hancur total, saya langsung teringat itu

  • Di komentar sini banyak omongan lama yang sudah akrab: us-east-1 tersentralisasi, merupakan single point of failure AWS, harus diperbaiki, dan jangan deploy di sana
    Kejadian kali ini adalah masalah di satu data center dalam satu zone di region multi-zone itu
    IAM/R53 dan lain-lain memang tersentralisasi di sana, dan menjadikan layanan itu lebih terdesentralisasi serta lintas-region tentu hal yang baik. Tetapi us-east-1 sendiri sudah merupakan region multi-zone dengan 6 zone, bahkan zone ke-7 dijadwalkan pada 2026, dan di dalam setiap zone juga ada beberapa data center
    Setahu saya, saat layanan global seperti IAM turun, penyebabnya lebih sering bug implementasi atau dependensi daripada sekadar “kalau lintas-region pasti tidak akan mati”
    Kali ini bukan outage layanan global AWS. Yang tampaknya terdampak lebih besar mungkin MSK, dan itu kemungkinan lebih merupakan masalah Kafka daripada masalah khas AWS

  • Saya penasaran kenapa hal seperti ini tidak dibangun dekat laut. Bukankah fasilitas yang butuh kapasitas pendinginan besar, seperti PLTN, juga begitu?
    Rasanya panas bisa dibuang dengan sirkulasi dua loop memakai heat exchanger

    • Ashburn VA menjadi hub data center karena internet exchange point non-pemerintah pertama di dunia ada di sana (https://en.wikipedia.org/wiki/MAE-East)
      Pada 1990-an, sekitar setengah lalu lintas internet dunia melewati MAE-East, dan akibatnya AWS menempatkan region pertamanya di sana. us-east-1 hadir 2 tahun lebih dulu dari eu-west-1 dan 3 tahun lebih dulu dari us-west-1
      Karena makin banyak orang yang tahu cara membangun data center dan vendor yang bisa menyuplai kebutuhan itu, Dulles Corridor menjadi hub utama data center banyak perusahaan
      Di AWS, us-east-1 adalah region pertama sehingga sejauh ini paling rumit dan paling aneh, dan banyak control plane layanan AWS lain menjadi bergantung padanya. Itu sebabnya region ini lebih sering tumbang daripada region lain, dan kalau tumbang jadi berita nasional, tidak seperti eu-south-2 di Spanyol
      NoVA hanyalah contoh untuk data center, bukan pabrik, tetapi merupakan jenis klaster ekonomi yang sama seperti topik riset yang membuat Paul Krugman mendapat Nobel Ekonomi
    • Saya pernah mengalami outage overheating besar di dua data center berbeda
      Salah satunya insiden saat data center SOMA milik Hosting.com terlalu panas sampai mereka menyemprotkan air dari selang ke atap untuk mendinginkannya, dan yang lain adalah insiden saat data center Chai Wan milik Alibaba terlalu panas sehingga semua yang berjalan di sana, termasuk control plane, ikut turun
      Jadi menurut saya kedekatan dengan laut tidak memberi keuntungan tambahan dari sisi pembuangan panas darurat. Kapasitas untuk membuang panas ke luar itu tetap terbatas, dan baik berada di tepi laut maupun di tengah Nebraska, seluruh sistem tetap harus dirancang untuk memenuhi kinerja tertentu
    • Saya pernah mengambil kelas data center saat program magister, dan profesor memakai contoh data center di wilayah panas Amerika tengah lalu membandingkannya dengan skenario ideal
      Di slide ada berbagai faktor yang memengaruhi pemilihan lokasi data center, dan beberapa di antaranya mencakup tersedianya ruang yang cukup serta tenaga kerja terampil untuk bekerja di data center tersebut. Kadang politik juga ikut campur dalam pemilihan lokasi data center berikutnya
    • Yang langsung terpikir, sistem air dengan kadar garam setingkat air laut biaya perawatannya jauh lebih mahal. Loop sekunder juga sama
      Tanah di pesisir jauh lebih mahal, dan kalau pergi ke pesisir yang terpencil kemungkinan akses listriknya tidak bagus
      Lokasi pesisir juga biasanya lebih terpapar fenomena cuaca yang berat
      Ada juga hal yang sulit diprediksi. PLTN Diablo Canyon pernah mengalami masalah saluran masuk air pendingin laut tersumbat oleh puing dan migrasi ubur-ubur
      https://www.nbcnews.com/news/world/diablo-canyon-nuclear-pla...
    • Laut itu mengandung garam. Air asin jauh lebih buruk untuk peralatan elektronik daripada air biasa
      Airnya juga harus cukup dalam; kalau tidak, malah akan menghangat sampai suhu permukaan. Selain itu, pendekatan ini juga harus kompetitif secara biaya dibanding pendinginan evaporatif tradisional
      Contoh textbook untuk pendekatan yang berhasil adalah Toronto. Ada danau air tawar yang dalam relatif dekat dari pesisir, dan pusat kotanya punya harga properti tinggi sehingga metode tradisional terhambat
      https://en.wikipedia.org/wiki/Deep_Lake_Water_Cooling_System