Gangguan pusat data AWS Virginia Utara - sudah teratasi

(cnbc.com)

1 poin oleh GN⁺ 1 jam lalu | 1 komentar | Bagikan ke WhatsApp

AWS melaporkan masalah operasional sejak Kamis malam, dan gangguan yang terkait dengan panas berlebih di pusat data wilayah US-East-1 Virginia Utara memengaruhi platform perdagangan seperti Coinbase dan FanDuel
Dalam pembaruan pada Jumat pukul 3.29 sore (ET), AWS menyatakan pemulihan penuh masih diperkirakan memerlukan beberapa jam lagi, dan proses pemulihan berjalan lebih lambat dari perkiraan sebelumnya
AWS menjelaskan bahwa masalah terjadi di satu Availability Zone di wilayah tersebut, dan mereka sedang memulihkan perangkat keras yang tersisa dengan mengaktifkan kapasitas sistem pendingin tambahan
FanDuel menyatakan bahwa setelah menyelidiki kesulitan teknis yang membuat pengguna tidak bisa mengakses platform, masalah itu terhubung dengan gangguan AWS yang lebih luas; para pengguna pun memprotes karena mengalami kerugian taruhan akibat tidak bisa melakukan cash out
Coinbase menyatakan bahwa gangguan di beberapa area AWS menyebabkan gangguan berkepanjangan pada layanan perdagangan inti, dan memposting bahwa masalah utama telah sepenuhnya diselesaikan

Progres pemulihan

Dalam pembaruan Jumat pukul 9.51 pagi (ET), AWS menyatakan, “Kami sedang bekerja secara aktif untuk mengaktifkan kapasitas sistem pendingin tambahan, yang akan memungkinkan kami memulihkan perangkat keras yang tersisa di area yang terdampak”
AWS sedang menangani gangguan pada instance EC2 yang menyediakan kapasitas server virtual
Dasbor kesehatan AWS pertama kali memposting pada Kamis pukul 8.25 malam (ET) bahwa mereka “sedang menyelidiki gangguan instance”
AWS tidak memberikan pernyataan tambahan

Dampak per layanan

FanDuel menyatakan di X pada Kamis pukul 9 malam (ET) bahwa mereka mengetahui adanya kesulitan teknis saat ini yang membuat pengguna tidak bisa mengakses platform dan sedang menyelidikinya
Sekitar 2 jam kemudian, FanDuel memperbarui bahwa masalah tersebut terhubung dengan gangguan AWS yang lebih luas
Pengguna FanDuel memprotes karena mereka tidak bisa melakukan cash out di platform dan mengalami kerugian taruhan
Coinbase juga memposting di X pada Jumat bahwa gangguan di beberapa area AWS menyebabkan “gangguan berkepanjangan pada layanan perdagangan inti”
Coinbase menyatakan dalam posting tersebut bahwa masalah utama telah sepenuhnya diselesaikan

Konteks pasar cloud

AWS menguasai sekitar sepertiga pasar teknologi infrastruktur cloud
AWS melayani jutaan perusahaan

1 komentar

GN⁺ 1 jam lalu

Komentar Hacker News

AWS US-East 1 tetap menjadi tumit Achilles internet
Memang bisa membangun lintas beberapa region dan availability zone, tetapi AWS berulang kali mengalami insiden di mana masalah di US-East 1 berdampak lebih luas, membuat redundansi dan ketahanannya tidak setinggi yang diisyaratkan AWS
- Gagasan bahwa layanan AWS sepenuhnya terisolasi per region sejak awal nyaris selalu lebih dekat ke mitos
  Semua layanan identitas dan akses di public cloud di luar Tiongkok, yaitu yang oleh karyawan disebut “IAM untuk partisi aws”, dipusatkan di us-east-1. Untuk melihat akun, penagihan, dan izin secara konsisten, sentralisasi seperti ini pada praktiknya memang diperlukan
  IAM juga bukan tumpukan perangkat lunak yang sepenuhnya independen, dan bergantung pada beberapa layanan seperti DynamoDB, sementara layanan-layanan itu pada gilirannya punya ketergantungan siklik pada IAM
  Saat terjadi outage di us-east-1, kadang masih mungkin terus memakai token atau sesi autentikasi yang sudah ada di region lain, tetapi token baru bisa jadi tidak dapat diterbitkan. Saya bahkan ingat di tempat kerja lama pernah diberi tahu ke on-call agar jangan menutup sesi SSH atau tab browser AWS Console karena mereka bisa terkunci sampai outage berakhir
- Semua orang bilang begitu, tetapi kali ini masalahnya ada di satu availability zone
  Selama tiga tahun terakhir saya hampir sepenuhnya menjalankan startup di use-1, dan outage tingkat region hanya terjadi sekali, itupun outage parsial jadi sebagian besar instance tidak terdampak
  Sejujurnya, karena milik para pelanggan juga semuanya ada di use-1, ada keuntungan bahwa outage punya korelasi dengan pelanggan
- Terlalu banyak orang yang memakainya
  Di negeri dongeng ajaib, beban tersebar merata ke beberapa penyedia cloud, dan tidak ada single point of failure
  Hubungan dengan pacar pertama juga berjalan baik, anak kembar fasih bahasa Inggris dan Korea, dan kita juga tahu bahwa saat menerapkan layanan skala besar kita tidak boleh hanya bergantung pada satu AWS
  Biaya kesehatan di Amerika juga terjangkau. Tapi kenyataannya hari demi hari berlalu, dan satu AWS US-East 1 masih bisa menjatuhkan sebagian besar internet
- Jika memakai beberapa region dan availability zone demi ketahanan, bersiaplah membayar pajak kapasitas
  Untuk 2 region perlu kapasitas 2x, untuk 3 region perlu kapasitas 1,5x, dan dalam konfigurasi multi-region mesin harus sudah berjalan sejak awal. Jangan berharap bisa menyalakan instance atau mengamankan kapasitas saat outage terjadi, dan kompleksitas tambahan hosting multi-region juga harus ditanggung
- Dari yang saya dengar, tampaknya ada efek berantai sampai ke us-east-2 karena orang-orang yang pindah dari us-east-1
  Agak lucu melihat konfigurasi multi-region/multi-AZ terlihat begitu jelas seperti formalitas kosong, tetapi tetap dipercaya bersama-sama layaknya kredo agama cloud
Taruhan seperti ini berbahaya. Karena orang seperti pegawai yang bisa menjatuhkan AWS bisa ikut bertaruh
Taruhan seperti ini tidak seaman kelihatannya, karena sering kali orang yang memasang taruhan juga bisa memengaruhi atau mengubah hasilnya
- Untung sekali Big Tech merekrut insinyur yang beretika, bukan orang yang cuma peduli uang atau status sosial
- Tapi kalau semua situs taruhan ternyata berjalan di atas US-East1, ya percuma
- Mudah dibayangkan juga AWS turun dan situs taruhan itu sendiri ikut tutup
  Secara umum saya setuju dengan argumen bahwa pasar prediksi seperti ini bisa mendorong insider trading dan skenario negatif. Ada insentif untuk mengambil untung dari situasi seperti itu
Pendinginan data center seharusnya hampir selalu direncanakan sebelumnya, dan saya kira mereka tidak akan memasang lebih banyak daripada yang bisa didinginkan
Di sini saya penasaran apakah yang rusak adalah peralatan pendingin, apakah ada penyebab eksternal untuk overheating, atau apakah Amazon melakukan overbooking kapasitas pendinginan data center
- Saya pernah bekerja di data center yang punya banyak chiller redundan di atap dan banyak unit pendingin redundan di tiap lantai, tetapi entah bagaimana pipa suplai air rusak dan pendinginan seluruh gedung berhenti sekaligus
  Mereka tidak menjelaskan penyebab detailnya, tetapi tampaknya pipa antara tiap lantai dan atap tidak dibuat redundan, dan perbaikannya memakan hampir 24 jam
- Hampir pasti ini masalah kegagalan peralatan
  Pendinginan data center, seperti hal lain, sekaligus mengalami overprovision dan underprovision
  Peralatan penukar panas besar dibuat N+1, dan untuk fasilitas beban kecil yang sangat penting bahkan disusun 2N/3N, jadi itu overprovision. Sebabnya, sistem ini harus dimatikan untuk inspeksi rutin, punya tingkat kegagalan lebih tinggi daripada komponen data center tradisional, dan butuh perbaikan mekanis oleh tenaga spesialis dengan waktu pengadaan yang lama
  Di fasilitas besar, makin besar nilai N, makin tidak aneh juga jika pendinginannya N+3 atau lebih. Selalu ada sesuatu yang sedang dirawat, atau ada perangkat yang menunggu suku cadang karena komponennya sudah tidak diproduksi lagi dan harus dibuat ulang di bengkel, yang masih lebih murah daripada mengganti seluruh peralatan
  Sebaliknya, jika seluruh kapasitas komputasi fasilitas tiba-tiba naik dari pemakaian daya rata-rata ke 100%, kapasitas pendinginan akan terlampaui, jadi ini juga underprovision. Jalur listrik dan jalur lain juga sering kelebihan beban, dan secara alami industri ini memang dekat dengan over-selling
  Biasanya itu bukan masalah besar. Beban komputasi jarang melonjak ke 100% dari kapasitas total, dan kalaupun melonjak tidak berlangsung lama, serta fasilitas tidak dibangun dengan kapasitas pendinginan atau listrik pas-pasan di ambang batas
  Masalah muncul saat beberapa kejadian bertabrakan. Sistem pendinginan dirancang untuk menangani 200% dari beban rata-rata agar ada ruang cukup untuk maintenance dan kegagalan
  Pada hari Selasa teknisi datang memeriksa satu unit, menemukan bearing rusak, lalu mematikan peralatan semalaman agar tidak berisiko merusak fan assembly karena suku cadang harus didatangkan dari negara bagian lain
  Dua unit pendingin di sebelahnya lalu bekerja sedikit lebih keras, dan salah satunya ternyata punya motor agak tidak seimbang atau fuse yang longgar lalu memanas, sehingga komponen yang selama bertahun-tahun bertahan akhirnya jebol karena peningkatan duty cycle
  Sekarang di fasilitas N+2, dua unit hilang, tetapi karena acuannya 200% dari beban rata-rata, itu belum fatal
  Jika unit ketiga di sisi berlawanan dari unit pertama juga memunculkan cacat saat bebannya naik, maka di fasilitas N+2 tiga unit hilang. Meski begitu, karena dirancang untuk 200% dari beban rata-rata, ini masih belum jadi bencana besar
  Tetapi saat itu jam 4 pagi, operator di lokasi tidak bisa memperbaiki cacat itu, dan vendor baru bangun pukul 7 lalu tiba pukul 9. Sementara itu beban mulai naik
  Hal seperti ini terjadi setiap hari di suatu data center di Amerika, dan mungkin setahun sekali di setiap data center
  Yang kemudian menjadi berita adalah pertemuan dengan kejadian berikutnya. Satu pelanggan besar memutuskan ini saat yang tepat untuk memulai pekerjaan batch besar. Ada perusahaan fintech yang menjalankan model besar sebelum pasar buka, atau perusahaan minyak yang melakukan analisis cepat atas ladang baru
  10.000 VM baru dinyalakan. Dalam kondisi normal tidak apa-apa karena masih ada kapasitas sisa
  Tetapi pendinginan hanya direncanakan untuk 200% dari kapasitas pendinginan rata-rata, dan node kali ini bukan node yang sekadar cukup sibuk, melainkan node yang menjalankan komputasi numerik intensif yang dioptimalkan sehingga menarik daya maksimum dan membuang panas maksimum
  Jadi bukan hanya bebannya besar jika dihitung dari total jumlah mesin, dampak panas buangan rata-ratanya juga besar. Lalu kegagalan berantai mulai terjadi dan pendinginan turun menjadi N-4
  Kipas server mulai berputar lebih cepat dan memakai listrik lebih banyak, pendinginan menjadi N-5. Alarm berbunyi di mana-mana
  Mekanisme pengaman pada unit pendingin aktif satu per satu karena beban dan kenaikan tekanan refrigeran, lalu pendinginan menjadi N-6, N-7, dan akhirnya 0
- Satu loop pendinginan data center mengalami kegagalan
- Topik serupa enak didengar di sini: https://signalsandthreads.com/the-thermodynamics-of-trading/
Saya penasaran apakah di EU tahun ini Hetzner punya uptime yang lebih baik daripada AWS
- Saya tidak paham kenapa OVH tidak lebih disukai
  UI Hetzner terasa terlalu membingungkan sehingga sulit dikelola
Tulisan terkait: AWS EC2 outage in use1-az4 (us-east-1)
https://news.ycombinator.com/item?id=48057294
Selalu East 1. Bercanda aside, saya tidak mengerti kenapa east-1 jauh lebih sering tumbang dibanding region lain
Dari sisi arsitektur rasanya seharusnya cukup mirip dengan region-region lain
- Saya rasa east one adalah data center inti sekaligus yang paling tua
  Bebannya mungkin lebih besar daripada region lain, dan saat pertama dibangun pengalamannya juga masih minim, jadi kemungkinan punya lebih banyak utang teknis dan utang arsitektur/engineering
  Kalau tidak salah ada juga layanan yang bergantung pada east-1 sebagai single point of failure, seperti IAM atau sebagian konfigurasi S3
- Ini adalah sistem region tertua dan punya peran penting secara struktural, seperti otoritas sertifikasi internal berada di sana
- Menariknya, ada tulisan seperti ini
  
  AWS in 2025: The Stuff You Think You Know That’s Now Wrong
  us-east-1 is no longer a merrily burning dumpster fire of sadness and regret.
  — https://www.lastweekinaws.com/blog/aws-in-2025-the-stuff-you...
  Selain itu artikelnya bagus
Coinbase mengatakan beberapa availability zone ikut turun, tetapi pengumuman AWS menyebut hanya satu availability zone yang terdampak
Saya penasaran apakah ada yang tahu detailnya
- Coinbase mengonfirmasi di X bahwa exchange mereka dijalankan hanya di satu availability zone karena latensi: https://x.com/i/status/2052855725857329254
- Jangan percaya perusahaan kripto akan jujur
- Saya tidak menemukan sumber resmi, tetapi tampaknya blast radius tidak benar-benar terbatas pada availability zone itu saja
  Saya menjalankan sistem di us-east-1, dan selama insiden terlihat masalah koneksi intermiten yang sulit dijelaskan dan belum pernah saya lihat sebelumnya bahkan di luar az4
- Kalau East-1 turun, sebagian availability zone lain selalu ikut terdampak. Selalu ada sesuatu yang bergantung pada East-1
- Saya mengawasi grafik SLI sepanjang malam karena sempat mengira seluruh region akan tumbang, tetapi ternyata tidak
  Hanya beberapa volume EBS single-AZ di sejumlah environment yang sedikit memburuk, jadi ini memang jelas masalah satu availability zone saja (use-az4)
Saya pernah melihat ungkapan “kalau dia teman, dia tidak akan membiarkan temannya memakai USE1”, dan ketika muncul pesan di Slack bahwa USE1 dan semua yang dideploy di sana hancur total, saya langsung teringat itu
Di komentar sini banyak omongan lama yang sudah akrab: us-east-1 tersentralisasi, merupakan single point of failure AWS, harus diperbaiki, dan jangan deploy di sana
Kejadian kali ini adalah masalah di satu data center dalam satu zone di region multi-zone itu
IAM/R53 dan lain-lain memang tersentralisasi di sana, dan menjadikan layanan itu lebih terdesentralisasi serta lintas-region tentu hal yang baik. Tetapi us-east-1 sendiri sudah merupakan region multi-zone dengan 6 zone, bahkan zone ke-7 dijadwalkan pada 2026, dan di dalam setiap zone juga ada beberapa data center
Setahu saya, saat layanan global seperti IAM turun, penyebabnya lebih sering bug implementasi atau dependensi daripada sekadar “kalau lintas-region pasti tidak akan mati”
Kali ini bukan outage layanan global AWS. Yang tampaknya terdampak lebih besar mungkin MSK, dan itu kemungkinan lebih merupakan masalah Kafka daripada masalah khas AWS
Saya penasaran kenapa hal seperti ini tidak dibangun dekat laut. Bukankah fasilitas yang butuh kapasitas pendinginan besar, seperti PLTN, juga begitu?
Rasanya panas bisa dibuang dengan sirkulasi dua loop memakai heat exchanger
- Ashburn VA menjadi hub data center karena internet exchange point non-pemerintah pertama di dunia ada di sana (https://en.wikipedia.org/wiki/MAE-East)
  Pada 1990-an, sekitar setengah lalu lintas internet dunia melewati MAE-East, dan akibatnya AWS menempatkan region pertamanya di sana. us-east-1 hadir 2 tahun lebih dulu dari eu-west-1 dan 3 tahun lebih dulu dari us-west-1
  Karena makin banyak orang yang tahu cara membangun data center dan vendor yang bisa menyuplai kebutuhan itu, Dulles Corridor menjadi hub utama data center banyak perusahaan
  Di AWS, us-east-1 adalah region pertama sehingga sejauh ini paling rumit dan paling aneh, dan banyak control plane layanan AWS lain menjadi bergantung padanya. Itu sebabnya region ini lebih sering tumbang daripada region lain, dan kalau tumbang jadi berita nasional, tidak seperti eu-south-2 di Spanyol
  NoVA hanyalah contoh untuk data center, bukan pabrik, tetapi merupakan jenis klaster ekonomi yang sama seperti topik riset yang membuat Paul Krugman mendapat Nobel Ekonomi
- Saya pernah mengalami outage overheating besar di dua data center berbeda
  Salah satunya insiden saat data center SOMA milik Hosting.com terlalu panas sampai mereka menyemprotkan air dari selang ke atap untuk mendinginkannya, dan yang lain adalah insiden saat data center Chai Wan milik Alibaba terlalu panas sehingga semua yang berjalan di sana, termasuk control plane, ikut turun
  Jadi menurut saya kedekatan dengan laut tidak memberi keuntungan tambahan dari sisi pembuangan panas darurat. Kapasitas untuk membuang panas ke luar itu tetap terbatas, dan baik berada di tepi laut maupun di tengah Nebraska, seluruh sistem tetap harus dirancang untuk memenuhi kinerja tertentu
- Saya pernah mengambil kelas data center saat program magister, dan profesor memakai contoh data center di wilayah panas Amerika tengah lalu membandingkannya dengan skenario ideal
  Di slide ada berbagai faktor yang memengaruhi pemilihan lokasi data center, dan beberapa di antaranya mencakup tersedianya ruang yang cukup serta tenaga kerja terampil untuk bekerja di data center tersebut. Kadang politik juga ikut campur dalam pemilihan lokasi data center berikutnya
- Yang langsung terpikir, sistem air dengan kadar garam setingkat air laut biaya perawatannya jauh lebih mahal. Loop sekunder juga sama
  Tanah di pesisir jauh lebih mahal, dan kalau pergi ke pesisir yang terpencil kemungkinan akses listriknya tidak bagus
  Lokasi pesisir juga biasanya lebih terpapar fenomena cuaca yang berat
  Ada juga hal yang sulit diprediksi. PLTN Diablo Canyon pernah mengalami masalah saluran masuk air pendingin laut tersumbat oleh puing dan migrasi ubur-ubur
  https://www.nbcnews.com/news/world/diablo-canyon-nuclear-pla...
- Laut itu mengandung garam. Air asin jauh lebih buruk untuk peralatan elektronik daripada air biasa
  Airnya juga harus cukup dalam; kalau tidak, malah akan menghangat sampai suhu permukaan. Selain itu, pendekatan ini juga harus kompetitif secara biaya dibanding pendinginan evaporatif tradisional
  Contoh textbook untuk pendekatan yang berhasil adalah Toronto. Ada danau air tawar yang dalam relatif dekat dari pesisir, dan pusat kotanya punya harga properti tinggi sehingga metode tradisional terhambat
  https://en.wikipedia.org/wiki/Deep_Lake_Water_Cooling_System

Gangguan pusat data AWS Virginia Utara - sudah teratasi

Progres pemulihan

Dampak per layanan

Konteks pasar cloud

Bacaan terkait

1 komentar

Komentar Hacker News