- Dari 2 hingga 4 November 2023, layanan control plane dan analitik Cloudflare mengalami gangguan.
- Control plane terutama mencakup antarmuka yang berhadapan langsung dengan pelanggan untuk layanan Cloudflare, sementara layanan analitik mencakup logging dan pelaporan analitik.
- Insiden ini terjadi akibat kegagalan daya di pusat data Flexential, yang menampung klaster analitik terbesar Cloudflare dan bagian penting dari klaster high-availability mereka.
- Meskipun sistem high-availability telah dipasang untuk mencegah gangguan semacam ini, beberapa sistem penting memiliki dependensi nonpublik yang membuatnya tidak tersedia selama insiden.
- Sistem control plane dan analitik Cloudflare terutama dijalankan di tiga pusat data di sekitar Hillsboro, Oregon, yang beroperasi secara independen dan dirancang untuk tetap berjalan meskipun salah satunya offline.
- Gangguan ini mengungkapkan bahwa beberapa layanan, terutama layanan baru, belum ditambahkan ke klaster high-availability, dan bahwa sistem logging bukan bagian dari klaster ini.
- Kegagalan daya di pusat data Flexential disebabkan oleh peristiwa pemeliharaan tak terencana yang memengaruhi pasokan listrik independen yang masuk ke gedung, sehingga menyebabkan gangguan ground fault pada transformator.
- Cloudflare dapat memulihkan sebagian besar control plane dari fasilitas disaster recovery, dan setelah fasilitas tersebut online, sebagian besar pelanggan kemungkinan tidak mengalami masalah pada sebagian besar produk.
- Namun, layanan lain membutuhkan waktu lebih lama untuk dipulihkan, dan pelanggan yang menggunakannya mungkin mengalami masalah sampai insiden sepenuhnya diselesaikan.
- Berdasarkan pelajaran dari insiden ini, Cloudflare sedang menerapkan perubahan, termasuk menghilangkan dependensi pada pusat data inti, memastikan fungsi control plane tetap berjalan bahkan jika semua pusat data inti offline, serta mewajibkan semua produk dan fitur bergantung pada klaster high-availability dan memiliki rencana disaster recovery yang andal.
- Perusahaan juga melakukan pengujian chaos yang lebih ketat untuk semua fungsi pusat data, mengaudit semua pusat data inti, serta mengembangkan rencana disaster recovery untuk logging dan analitik.
1 komentar
Opini Hacker News