- AWS melaporkan masalah operasional sejak Kamis malam, dan gangguan yang terkait dengan panas berlebih di pusat data wilayah US-East-1 Virginia Utara memengaruhi platform perdagangan seperti Coinbase dan FanDuel
- Dalam pembaruan pada Jumat pukul 3.29 sore (ET), AWS menyatakan pemulihan penuh masih diperkirakan memerlukan beberapa jam lagi, dan proses pemulihan berjalan lebih lambat dari perkiraan sebelumnya
- AWS menjelaskan bahwa masalah terjadi di satu Availability Zone di wilayah tersebut, dan mereka sedang memulihkan perangkat keras yang tersisa dengan mengaktifkan kapasitas sistem pendingin tambahan
- FanDuel menyatakan bahwa setelah menyelidiki kesulitan teknis yang membuat pengguna tidak bisa mengakses platform, masalah itu terhubung dengan gangguan AWS yang lebih luas; para pengguna pun memprotes karena mengalami kerugian taruhan akibat tidak bisa melakukan cash out
- Coinbase menyatakan bahwa gangguan di beberapa area AWS menyebabkan gangguan berkepanjangan pada layanan perdagangan inti, dan memposting bahwa masalah utama telah sepenuhnya diselesaikan
Progres pemulihan
- Dalam pembaruan Jumat pukul 9.51 pagi (ET), AWS menyatakan, “Kami sedang bekerja secara aktif untuk mengaktifkan kapasitas sistem pendingin tambahan, yang akan memungkinkan kami memulihkan perangkat keras yang tersisa di area yang terdampak”
- AWS sedang menangani gangguan pada instance EC2 yang menyediakan kapasitas server virtual
- Dasbor kesehatan AWS pertama kali memposting pada Kamis pukul 8.25 malam (ET) bahwa mereka “sedang menyelidiki gangguan instance”
- AWS tidak memberikan pernyataan tambahan
Dampak per layanan
- FanDuel menyatakan di X pada Kamis pukul 9 malam (ET) bahwa mereka mengetahui adanya kesulitan teknis saat ini yang membuat pengguna tidak bisa mengakses platform dan sedang menyelidikinya
- Sekitar 2 jam kemudian, FanDuel memperbarui bahwa masalah tersebut terhubung dengan gangguan AWS yang lebih luas
- Pengguna FanDuel memprotes karena mereka tidak bisa melakukan cash out di platform dan mengalami kerugian taruhan
- Coinbase juga memposting di X pada Jumat bahwa gangguan di beberapa area AWS menyebabkan “gangguan berkepanjangan pada layanan perdagangan inti”
- Coinbase menyatakan dalam posting tersebut bahwa masalah utama telah sepenuhnya diselesaikan
Konteks pasar cloud
- AWS menguasai sekitar sepertiga pasar teknologi infrastruktur cloud
- AWS melayani jutaan perusahaan
1 komentar
Komentar Hacker News
AWS US-East 1 tetap menjadi tumit Achilles internet
Memang bisa membangun lintas beberapa region dan availability zone, tetapi AWS berulang kali mengalami insiden di mana masalah di US-East 1 berdampak lebih luas, membuat redundansi dan ketahanannya tidak setinggi yang diisyaratkan AWS
Semua layanan identitas dan akses di public cloud di luar Tiongkok, yaitu yang oleh karyawan disebut “IAM untuk partisi aws”, dipusatkan di us-east-1. Untuk melihat akun, penagihan, dan izin secara konsisten, sentralisasi seperti ini pada praktiknya memang diperlukan
IAM juga bukan tumpukan perangkat lunak yang sepenuhnya independen, dan bergantung pada beberapa layanan seperti DynamoDB, sementara layanan-layanan itu pada gilirannya punya ketergantungan siklik pada IAM
Saat terjadi outage di us-east-1, kadang masih mungkin terus memakai token atau sesi autentikasi yang sudah ada di region lain, tetapi token baru bisa jadi tidak dapat diterbitkan. Saya bahkan ingat di tempat kerja lama pernah diberi tahu ke on-call agar jangan menutup sesi SSH atau tab browser AWS Console karena mereka bisa terkunci sampai outage berakhir
Selama tiga tahun terakhir saya hampir sepenuhnya menjalankan startup di use-1, dan outage tingkat region hanya terjadi sekali, itupun outage parsial jadi sebagian besar instance tidak terdampak
Sejujurnya, karena milik para pelanggan juga semuanya ada di use-1, ada keuntungan bahwa outage punya korelasi dengan pelanggan
Di negeri dongeng ajaib, beban tersebar merata ke beberapa penyedia cloud, dan tidak ada single point of failure
Hubungan dengan pacar pertama juga berjalan baik, anak kembar fasih bahasa Inggris dan Korea, dan kita juga tahu bahwa saat menerapkan layanan skala besar kita tidak boleh hanya bergantung pada satu AWS
Biaya kesehatan di Amerika juga terjangkau. Tapi kenyataannya hari demi hari berlalu, dan satu AWS US-East 1 masih bisa menjatuhkan sebagian besar internet
Untuk 2 region perlu kapasitas 2x, untuk 3 region perlu kapasitas 1,5x, dan dalam konfigurasi multi-region mesin harus sudah berjalan sejak awal. Jangan berharap bisa menyalakan instance atau mengamankan kapasitas saat outage terjadi, dan kompleksitas tambahan hosting multi-region juga harus ditanggung
Agak lucu melihat konfigurasi multi-region/multi-AZ terlihat begitu jelas seperti formalitas kosong, tetapi tetap dipercaya bersama-sama layaknya kredo agama cloud
Taruhan seperti ini berbahaya. Karena orang seperti pegawai yang bisa menjatuhkan AWS bisa ikut bertaruh
Taruhan seperti ini tidak seaman kelihatannya, karena sering kali orang yang memasang taruhan juga bisa memengaruhi atau mengubah hasilnya
Secara umum saya setuju dengan argumen bahwa pasar prediksi seperti ini bisa mendorong insider trading dan skenario negatif. Ada insentif untuk mengambil untung dari situasi seperti itu
Pendinginan data center seharusnya hampir selalu direncanakan sebelumnya, dan saya kira mereka tidak akan memasang lebih banyak daripada yang bisa didinginkan
Di sini saya penasaran apakah yang rusak adalah peralatan pendingin, apakah ada penyebab eksternal untuk overheating, atau apakah Amazon melakukan overbooking kapasitas pendinginan data center
Mereka tidak menjelaskan penyebab detailnya, tetapi tampaknya pipa antara tiap lantai dan atap tidak dibuat redundan, dan perbaikannya memakan hampir 24 jam
Pendinginan data center, seperti hal lain, sekaligus mengalami overprovision dan underprovision
Peralatan penukar panas besar dibuat N+1, dan untuk fasilitas beban kecil yang sangat penting bahkan disusun 2N/3N, jadi itu overprovision. Sebabnya, sistem ini harus dimatikan untuk inspeksi rutin, punya tingkat kegagalan lebih tinggi daripada komponen data center tradisional, dan butuh perbaikan mekanis oleh tenaga spesialis dengan waktu pengadaan yang lama
Di fasilitas besar, makin besar nilai N, makin tidak aneh juga jika pendinginannya N+3 atau lebih. Selalu ada sesuatu yang sedang dirawat, atau ada perangkat yang menunggu suku cadang karena komponennya sudah tidak diproduksi lagi dan harus dibuat ulang di bengkel, yang masih lebih murah daripada mengganti seluruh peralatan
Sebaliknya, jika seluruh kapasitas komputasi fasilitas tiba-tiba naik dari pemakaian daya rata-rata ke 100%, kapasitas pendinginan akan terlampaui, jadi ini juga underprovision. Jalur listrik dan jalur lain juga sering kelebihan beban, dan secara alami industri ini memang dekat dengan over-selling
Biasanya itu bukan masalah besar. Beban komputasi jarang melonjak ke 100% dari kapasitas total, dan kalaupun melonjak tidak berlangsung lama, serta fasilitas tidak dibangun dengan kapasitas pendinginan atau listrik pas-pasan di ambang batas
Masalah muncul saat beberapa kejadian bertabrakan. Sistem pendinginan dirancang untuk menangani 200% dari beban rata-rata agar ada ruang cukup untuk maintenance dan kegagalan
Pada hari Selasa teknisi datang memeriksa satu unit, menemukan bearing rusak, lalu mematikan peralatan semalaman agar tidak berisiko merusak fan assembly karena suku cadang harus didatangkan dari negara bagian lain
Dua unit pendingin di sebelahnya lalu bekerja sedikit lebih keras, dan salah satunya ternyata punya motor agak tidak seimbang atau fuse yang longgar lalu memanas, sehingga komponen yang selama bertahun-tahun bertahan akhirnya jebol karena peningkatan duty cycle
Sekarang di fasilitas N+2, dua unit hilang, tetapi karena acuannya 200% dari beban rata-rata, itu belum fatal
Jika unit ketiga di sisi berlawanan dari unit pertama juga memunculkan cacat saat bebannya naik, maka di fasilitas N+2 tiga unit hilang. Meski begitu, karena dirancang untuk 200% dari beban rata-rata, ini masih belum jadi bencana besar
Tetapi saat itu jam 4 pagi, operator di lokasi tidak bisa memperbaiki cacat itu, dan vendor baru bangun pukul 7 lalu tiba pukul 9. Sementara itu beban mulai naik
Hal seperti ini terjadi setiap hari di suatu data center di Amerika, dan mungkin setahun sekali di setiap data center
Yang kemudian menjadi berita adalah pertemuan dengan kejadian berikutnya. Satu pelanggan besar memutuskan ini saat yang tepat untuk memulai pekerjaan batch besar. Ada perusahaan fintech yang menjalankan model besar sebelum pasar buka, atau perusahaan minyak yang melakukan analisis cepat atas ladang baru
10.000 VM baru dinyalakan. Dalam kondisi normal tidak apa-apa karena masih ada kapasitas sisa
Tetapi pendinginan hanya direncanakan untuk 200% dari kapasitas pendinginan rata-rata, dan node kali ini bukan node yang sekadar cukup sibuk, melainkan node yang menjalankan komputasi numerik intensif yang dioptimalkan sehingga menarik daya maksimum dan membuang panas maksimum
Jadi bukan hanya bebannya besar jika dihitung dari total jumlah mesin, dampak panas buangan rata-ratanya juga besar. Lalu kegagalan berantai mulai terjadi dan pendinginan turun menjadi N-4
Kipas server mulai berputar lebih cepat dan memakai listrik lebih banyak, pendinginan menjadi N-5. Alarm berbunyi di mana-mana
Mekanisme pengaman pada unit pendingin aktif satu per satu karena beban dan kenaikan tekanan refrigeran, lalu pendinginan menjadi N-6, N-7, dan akhirnya 0
Saya penasaran apakah di EU tahun ini Hetzner punya uptime yang lebih baik daripada AWS
UI Hetzner terasa terlalu membingungkan sehingga sulit dikelola
Tulisan terkait: AWS EC2 outage in use1-az4 (us-east-1)
https://news.ycombinator.com/item?id=48057294
Selalu East 1. Bercanda aside, saya tidak mengerti kenapa east-1 jauh lebih sering tumbang dibanding region lain
Dari sisi arsitektur rasanya seharusnya cukup mirip dengan region-region lain
Bebannya mungkin lebih besar daripada region lain, dan saat pertama dibangun pengalamannya juga masih minim, jadi kemungkinan punya lebih banyak utang teknis dan utang arsitektur/engineering
Kalau tidak salah ada juga layanan yang bergantung pada east-1 sebagai single point of failure, seperti IAM atau sebagian konfigurasi S3
Coinbase mengatakan beberapa availability zone ikut turun, tetapi pengumuman AWS menyebut hanya satu availability zone yang terdampak
Saya penasaran apakah ada yang tahu detailnya
Saya menjalankan sistem di us-east-1, dan selama insiden terlihat masalah koneksi intermiten yang sulit dijelaskan dan belum pernah saya lihat sebelumnya bahkan di luar az4
Hanya beberapa volume EBS single-AZ di sejumlah environment yang sedikit memburuk, jadi ini memang jelas masalah satu availability zone saja (use-az4)
Saya pernah melihat ungkapan “kalau dia teman, dia tidak akan membiarkan temannya memakai USE1”, dan ketika muncul pesan di Slack bahwa USE1 dan semua yang dideploy di sana hancur total, saya langsung teringat itu
Di komentar sini banyak omongan lama yang sudah akrab: us-east-1 tersentralisasi, merupakan single point of failure AWS, harus diperbaiki, dan jangan deploy di sana
Kejadian kali ini adalah masalah di satu data center dalam satu zone di region multi-zone itu
IAM/R53 dan lain-lain memang tersentralisasi di sana, dan menjadikan layanan itu lebih terdesentralisasi serta lintas-region tentu hal yang baik. Tetapi us-east-1 sendiri sudah merupakan region multi-zone dengan 6 zone, bahkan zone ke-7 dijadwalkan pada 2026, dan di dalam setiap zone juga ada beberapa data center
Setahu saya, saat layanan global seperti IAM turun, penyebabnya lebih sering bug implementasi atau dependensi daripada sekadar “kalau lintas-region pasti tidak akan mati”
Kali ini bukan outage layanan global AWS. Yang tampaknya terdampak lebih besar mungkin MSK, dan itu kemungkinan lebih merupakan masalah Kafka daripada masalah khas AWS
Saya penasaran kenapa hal seperti ini tidak dibangun dekat laut. Bukankah fasilitas yang butuh kapasitas pendinginan besar, seperti PLTN, juga begitu?
Rasanya panas bisa dibuang dengan sirkulasi dua loop memakai heat exchanger
Pada 1990-an, sekitar setengah lalu lintas internet dunia melewati MAE-East, dan akibatnya AWS menempatkan region pertamanya di sana. us-east-1 hadir 2 tahun lebih dulu dari eu-west-1 dan 3 tahun lebih dulu dari us-west-1
Karena makin banyak orang yang tahu cara membangun data center dan vendor yang bisa menyuplai kebutuhan itu, Dulles Corridor menjadi hub utama data center banyak perusahaan
Di AWS, us-east-1 adalah region pertama sehingga sejauh ini paling rumit dan paling aneh, dan banyak control plane layanan AWS lain menjadi bergantung padanya. Itu sebabnya region ini lebih sering tumbang daripada region lain, dan kalau tumbang jadi berita nasional, tidak seperti eu-south-2 di Spanyol
NoVA hanyalah contoh untuk data center, bukan pabrik, tetapi merupakan jenis klaster ekonomi yang sama seperti topik riset yang membuat Paul Krugman mendapat Nobel Ekonomi
Salah satunya insiden saat data center SOMA milik Hosting.com terlalu panas sampai mereka menyemprotkan air dari selang ke atap untuk mendinginkannya, dan yang lain adalah insiden saat data center Chai Wan milik Alibaba terlalu panas sehingga semua yang berjalan di sana, termasuk control plane, ikut turun
Jadi menurut saya kedekatan dengan laut tidak memberi keuntungan tambahan dari sisi pembuangan panas darurat. Kapasitas untuk membuang panas ke luar itu tetap terbatas, dan baik berada di tepi laut maupun di tengah Nebraska, seluruh sistem tetap harus dirancang untuk memenuhi kinerja tertentu
Di slide ada berbagai faktor yang memengaruhi pemilihan lokasi data center, dan beberapa di antaranya mencakup tersedianya ruang yang cukup serta tenaga kerja terampil untuk bekerja di data center tersebut. Kadang politik juga ikut campur dalam pemilihan lokasi data center berikutnya
Tanah di pesisir jauh lebih mahal, dan kalau pergi ke pesisir yang terpencil kemungkinan akses listriknya tidak bagus
Lokasi pesisir juga biasanya lebih terpapar fenomena cuaca yang berat
Ada juga hal yang sulit diprediksi. PLTN Diablo Canyon pernah mengalami masalah saluran masuk air pendingin laut tersumbat oleh puing dan migrasi ubur-ubur
https://www.nbcnews.com/news/world/diablo-canyon-nuclear-pla...
Airnya juga harus cukup dalam; kalau tidak, malah akan menghangat sampai suhu permukaan. Selain itu, pendekatan ini juga harus kompetitif secara biaya dibanding pendinginan evaporatif tradisional
Contoh textbook untuk pendekatan yang berhasil adalah Toronto. Ada danau air tawar yang dalam relatif dekat dari pesisir, dan pusat kotanya punya harga properti tinggi sehingga metode tradisional terhambat
https://en.wikipedia.org/wiki/Deep_Lake_Water_Cooling_System