- Pada 5 Desember 2025 pukul 08:47 UTC, sebagian jaringan Cloudflare mengalami gangguan serius, dan pulih sepenuhnya pada 09:12, sekitar 25 menit kemudian
- Sekitar 28% dari total trafik HTTP terdampak, dan hanya pelanggan yang memenuhi kondisi tertentu yang mengalami gangguan
- Penyebabnya adalah perubahan WAF (logika parsing body) yang dilakukan saat menangani kerentanan React Server Components (CVE-2025-55182), dan tidak terkait dengan serangan siber
- Karena bug kode pada proxy FL1, terjadi error HTTP 500, sementara bug yang sama tidak muncul pada proxy FL2 berbasis Rust yang baru
- Cloudflare mengakui bahwa masalah serupa kembali terulang setelah gangguan 18 November, dan kini menjalankan proyek penguatan keamanan deployment dan resiliensi sebagai prioritas tertinggi
Ringkasan gangguan
- Pada 5 Desember 2025 pukul 08:47 UTC, terjadi gangguan pada sebagian jaringan Cloudflare
- Semua layanan pulih pada 09:12, dengan total dampak selama 25 menit
- Sekitar 28% dari total trafik HTTP terdampak
- Gangguan ini tidak terkait dengan serangan siber atau tindakan berbahaya, melainkan terjadi saat perubahan konfigurasi internal
- Penyebabnya adalah modifikasi logika parsing body pada WAF untuk merespons kerentanan baru di React Server Components
Penyebab gangguan dan latar belakang teknis
- WAF Cloudflare melakukan buffering body request HTTP ke memori untuk mendeteksi payload berbahaya
- Ukuran buffer yang ada sedang diperluas dari 128KB menjadi 1MB
- Karena alat pengujian internal tidak mendukung ukuran buffer baru, dilakukan perubahan kedua untuk menonaktifkan alat pengujian tersebut
- Perubahan ini langsung disebarkan ke seluruh server melalui sistem konfigurasi global
- Pada proxy FL1, perubahan ini memicu kondisi error, sehingga menghasilkan respons HTTP 500
- Pesan error:
attempt to index field 'execute' (a nil value)
- Masalah segera diidentifikasi, dan perubahan dibatalkan pada 09:12
Cakupan dampak
- Hanya pelanggan yang menggunakan proxy FL1 dan menerapkan Cloudflare Managed Ruleset yang terdampak
- Semua request ke situs tersebut mengembalikan error HTTP 500
- Beberapa endpoint pengujian seperti
/cdn-cgi/trace menjadi pengecualian
- Jaringan di Tiongkok dan pelanggan dengan konfigurasi lain tidak terdampak
Detail error runtime
- Sistem rulesets Cloudflare mengevaluasi aturan pada setiap request
- Aturan terdiri dari filter dan action, dan action
execute memanggil kumpulan aturan lain
- Sistem logging internal menggunakan
execute untuk mengevaluasi aturan pengujian
- Sistem killswitch dirancang untuk menonaktifkan aturan yang bermasalah, namun
- Ini adalah pertama kalinya killswitch diterapkan pada aturan yang berisi action
execute
- Terjadi error Lua karena sistem mencoba mengakses saat objek
execute tidak ada
- Error ini adalah bug kode sederhana yang telah ada selama bertahun-tahun namun tidak terdeteksi
- Bug yang sama tidak terjadi pada proxy FL2 yang ditulis dengan Rust
Perkembangan perbaikan setelah gangguan 18 November
- Pada 18 November juga terjadi gangguan luas akibat deployment global yang serupa
- Saat itu, Cloudflare berkomunikasi langsung dengan ratusan pelanggan dan membagikan rencana untuk mencegah satu update menyebar penuh ke seluruh sistem
- Pekerjaan perbaikan tersebut belum selesai, sehingga ikut memengaruhi gangguan kali ini
- Cloudflare menetapkannya sebagai prioritas tertinggi di seluruh organisasi
Proyek penguatan resiliensi yang sedang berjalan
- Enhanced Rollouts & Versioning
- Menerapkan deployment bertahap, verifikasi kesehatan, dan rollback cepat juga pada perubahan data serta konfigurasi untuk respons ancaman
- Streamlined Break Glass Capabilities
- Menjamin kemampuan intervensi darurat bahkan saat terjadi interaksi antara layanan internal dan control plane
- Fail-Open error handling
- Saat terjadi error pada file konfigurasi, request tidak diblokir, melainkan dialihkan ke kondisi normal dasar atau trafik dibiarkan lewat
- Beberapa layanan direncanakan akan menyediakan opsi fail-open/fail-closed
- Detail seluruh proyek resiliensi akan diumumkan dalam minggu depan
- Sampai saat itu, perubahan pada jaringan akan tetap dihentikan sepenuhnya (lockdown)
Timeline (UTC)
- 08:47 – Deployment perubahan konfigurasi dan mulai propagasi ke jaringan
- 08:48 – Dampak penuh terjadi
- 08:50 – Insiden dinyatakan melalui peringatan otomatis
- 09:11 – Mulai rollback perubahan
- 09:12 – Pemulihan selesai, seluruh trafik kembali normal
Kesimpulan
- Cloudflare mengakui keseriusan dua gangguan beruntun dan meminta maaf kepada pelanggan serta internet secara keseluruhan
- Ke depan, perusahaan berencana mencegah insiden serupa melalui penguatan keamanan deployment, toleransi error, dan resiliensi
Belum ada komentar.