2 poin oleh GN⁺ 2023-11-05 | 1 komentar | Bagikan ke WhatsApp
  • Dari 2 hingga 4 November 2023, layanan control plane dan analitik Cloudflare mengalami gangguan.
  • Control plane terutama mencakup antarmuka yang berhadapan langsung dengan pelanggan untuk layanan Cloudflare, sementara layanan analitik mencakup logging dan pelaporan analitik.
  • Insiden ini terjadi akibat kegagalan daya di pusat data Flexential, yang menampung klaster analitik terbesar Cloudflare dan bagian penting dari klaster high-availability mereka.
  • Meskipun sistem high-availability telah dipasang untuk mencegah gangguan semacam ini, beberapa sistem penting memiliki dependensi nonpublik yang membuatnya tidak tersedia selama insiden.
  • Sistem control plane dan analitik Cloudflare terutama dijalankan di tiga pusat data di sekitar Hillsboro, Oregon, yang beroperasi secara independen dan dirancang untuk tetap berjalan meskipun salah satunya offline.
  • Gangguan ini mengungkapkan bahwa beberapa layanan, terutama layanan baru, belum ditambahkan ke klaster high-availability, dan bahwa sistem logging bukan bagian dari klaster ini.
  • Kegagalan daya di pusat data Flexential disebabkan oleh peristiwa pemeliharaan tak terencana yang memengaruhi pasokan listrik independen yang masuk ke gedung, sehingga menyebabkan gangguan ground fault pada transformator.
  • Cloudflare dapat memulihkan sebagian besar control plane dari fasilitas disaster recovery, dan setelah fasilitas tersebut online, sebagian besar pelanggan kemungkinan tidak mengalami masalah pada sebagian besar produk.
  • Namun, layanan lain membutuhkan waktu lebih lama untuk dipulihkan, dan pelanggan yang menggunakannya mungkin mengalami masalah sampai insiden sepenuhnya diselesaikan.
  • Berdasarkan pelajaran dari insiden ini, Cloudflare sedang menerapkan perubahan, termasuk menghilangkan dependensi pada pusat data inti, memastikan fungsi control plane tetap berjalan bahkan jika semua pusat data inti offline, serta mewajibkan semua produk dan fitur bergantung pada klaster high-availability dan memiliki rencana disaster recovery yang andal.
  • Perusahaan juga melakukan pengujian chaos yang lebih ketat untuk semua fungsi pusat data, mengaudit semua pusat data inti, serta mengembangkan rencana disaster recovery untuk logging dan analitik.

1 komentar

 
GN⁺ 2023-11-05
Opini Hacker News
  • Artikel tentang gangguan besar Cloudflare, dan perusahaan mengaitkan masalah ini dengan kegagalan daya di pusat data yang dioperasikan vendor Flexential.
  • Beberapa pemberi komentar mengkritik Cloudflare karena melempar tanggung jawab kepada Flexential dan mengungkap informasi rahasia tentang vendor tersebut.
  • Akar penyebab gangguan ini adalah Cloudflare bergantung pada satu pusat data, dan beberapa pemberi komentar menganggap ini memalukan bagi reputasi Cloudflare.
  • Proses pemulihan memakan waktu lebih lama daripada gangguan itu sendiri, dan beberapa layanan membutuhkan sekitar 30 jam untuk pulih sepenuhnya. Ini karena banyak layanan saling bergantung satu sama lain.
  • Beberapa pemberi komentar menyatakan ketidakpuasan terhadap komunikasi Cloudflare selama gangguan, terutama bagi pelanggan perusahaan.
  • Terlepas dari masalah tersebut, beberapa pemberi komentar memuji transparansi Cloudflare dan ketelitian laporan pascainsidennya.
  • Beberapa pemberi komentar menyampaikan kekhawatiran tentang kegagalan redundansi Cloudflare dan kurangnya distribusi geografis pada control plane.
  • Para pemberi komentar juga mengkritik Cloudflare karena tidak menempatkan semua layanan dalam klaster high-availability dan tidak menguji semua kemungkinan skenario pemadaman listrik.
  • Beberapa pemberi komentar memuji unsur manusia dalam laporan tersebut, dengan mengakui bahwa Cloudflare perlu beristirahat untuk menghindari kesalahan tambahan selama proses pemulihan.
  • Para pemberi komentar menekankan pentingnya kemampuan pusat data untuk pulih dari kondisi benar-benar offline, dan mengkritik Cloudflare karena tidak menguji skenario ini.
  • Beberapa pemberi komentar menyatakan keterkejutan terhadap struktur artikel tersebut, karena sebagian besar tulisan membahas vendor pihak ketiga dan kurang berfokus pada upaya pemulihan internal Cloudflare.