Gangguan Cloudflare pada 5 Desember 2025
(blog.cloudflare.com)- Pada 5 Desember 2025 pukul 08:47 UTC, sebagian jaringan Cloudflare mengalami gangguan serius, dan pulih sepenuhnya pada 09:12, sekitar 25 menit kemudian
- Sekitar 28% dari total trafik HTTP terdampak, dan hanya pelanggan yang memenuhi kondisi tertentu yang mengalami gangguan
- Penyebabnya adalah perubahan WAF (logika parsing body) yang dilakukan saat menangani kerentanan React Server Components (CVE-2025-55182), dan tidak terkait dengan serangan siber
- Karena bug kode pada proxy FL1, terjadi error HTTP 500, sementara bug yang sama tidak muncul pada proxy FL2 berbasis Rust yang baru
- Cloudflare mengakui bahwa masalah serupa kembali terulang setelah gangguan 18 November, dan kini menjalankan proyek penguatan keamanan deployment dan resiliensi sebagai prioritas tertinggi
Ringkasan gangguan
- Pada 5 Desember 2025 pukul 08:47 UTC, terjadi gangguan pada sebagian jaringan Cloudflare
- Semua layanan pulih pada 09:12, dengan total dampak selama 25 menit
- Sekitar 28% dari total trafik HTTP terdampak
- Gangguan ini tidak terkait dengan serangan siber atau tindakan berbahaya, melainkan terjadi saat perubahan konfigurasi internal
- Penyebabnya adalah modifikasi logika parsing body pada WAF untuk merespons kerentanan baru di React Server Components
Penyebab gangguan dan latar belakang teknis
- WAF Cloudflare melakukan buffering body request HTTP ke memori untuk mendeteksi payload berbahaya
- Ukuran buffer yang ada sedang diperluas dari 128KB menjadi 1MB
- Karena alat pengujian internal tidak mendukung ukuran buffer baru, dilakukan perubahan kedua untuk menonaktifkan alat pengujian tersebut
- Perubahan ini langsung disebarkan ke seluruh server melalui sistem konfigurasi global
- Pada proxy FL1, perubahan ini memicu kondisi error, sehingga menghasilkan respons HTTP 500
- Pesan error:
attempt to index field 'execute' (a nil value)
- Pesan error:
- Masalah segera diidentifikasi, dan perubahan dibatalkan pada 09:12
Cakupan dampak
- Hanya pelanggan yang menggunakan proxy FL1 dan menerapkan Cloudflare Managed Ruleset yang terdampak
- Semua request ke situs tersebut mengembalikan error HTTP 500
- Beberapa endpoint pengujian seperti
/cdn-cgi/tracemenjadi pengecualian
- Jaringan di Tiongkok dan pelanggan dengan konfigurasi lain tidak terdampak
Detail error runtime
- Sistem rulesets Cloudflare mengevaluasi aturan pada setiap request
- Aturan terdiri dari filter dan action, dan action
executememanggil kumpulan aturan lain
- Aturan terdiri dari filter dan action, dan action
- Sistem logging internal menggunakan
executeuntuk mengevaluasi aturan pengujian - Sistem killswitch dirancang untuk menonaktifkan aturan yang bermasalah, namun
- Ini adalah pertama kalinya killswitch diterapkan pada aturan yang berisi action
execute
- Ini adalah pertama kalinya killswitch diterapkan pada aturan yang berisi action
- Terjadi error Lua karena sistem mencoba mengakses saat objek
executetidak ada - Error ini adalah bug kode sederhana yang telah ada selama bertahun-tahun namun tidak terdeteksi
- Bug yang sama tidak terjadi pada proxy FL2 yang ditulis dengan Rust
Perkembangan perbaikan setelah gangguan 18 November
- Pada 18 November juga terjadi gangguan luas akibat deployment global yang serupa
- Saat itu, Cloudflare berkomunikasi langsung dengan ratusan pelanggan dan membagikan rencana untuk mencegah satu update menyebar penuh ke seluruh sistem
- Pekerjaan perbaikan tersebut belum selesai, sehingga ikut memengaruhi gangguan kali ini
- Cloudflare menetapkannya sebagai prioritas tertinggi di seluruh organisasi
Proyek penguatan resiliensi yang sedang berjalan
- Enhanced Rollouts & Versioning
- Menerapkan deployment bertahap, verifikasi kesehatan, dan rollback cepat juga pada perubahan data serta konfigurasi untuk respons ancaman
- Streamlined Break Glass Capabilities
- Menjamin kemampuan intervensi darurat bahkan saat terjadi interaksi antara layanan internal dan control plane
- Fail-Open error handling
- Saat terjadi error pada file konfigurasi, request tidak diblokir, melainkan dialihkan ke kondisi normal dasar atau trafik dibiarkan lewat
- Beberapa layanan direncanakan akan menyediakan opsi fail-open/fail-closed
- Detail seluruh proyek resiliensi akan diumumkan dalam minggu depan
- Sampai saat itu, perubahan pada jaringan akan tetap dihentikan sepenuhnya (lockdown)
Timeline (UTC)
- 08:47 – Deployment perubahan konfigurasi dan mulai propagasi ke jaringan
- 08:48 – Dampak penuh terjadi
- 08:50 – Insiden dinyatakan melalui peringatan otomatis
- 09:11 – Mulai rollback perubahan
- 09:12 – Pemulihan selesai, seluruh trafik kembali normal
Kesimpulan
- Cloudflare mengakui keseriusan dua gangguan beruntun dan meminta maaf kepada pelanggan serta internet secara keseluruhan
- Ke depan, perusahaan berencana mencegah insiden serupa melalui penguatan keamanan deployment, toleransi error, dan resiliensi
1 komentar
Komentar Hacker News
Insiden Cloudflare kali ini bukan sekadar bug Lua sederhana, tetapi kejadian yang menyingkap masalah arsitektur yang mendasar
Struktur web terdistribusi yang asli sebenarnya jauh lebih tangguh terhadap gangguan global seperti ini. Sebaliknya, sistem terpusat yang homogen seperti Cloudflare bisa membuat layanan di seluruh dunia berhenti serentak hanya karena satu kesalahan. Ditulis dengan Rust pun manusia tetap bisa salah. Pada akhirnya, yang penting adalah desain yang kokoh
Tadi malam saya melihat error 500 Cloudflare di beberapa situs. Namun di halaman status tidak ada penyebutan apa pun, hanya pengumuman maintenance terjadwal
Tampaknya rekayasa kualitas di Cloudflare tidak mampu mengejar kecepatan produksi. Dulu saya dengar di industri pertahanan tim kualitas selalu lebih berpengalaman, tetapi di industri perangkat lunak sepertinya justru kebalikannya
Arsitektur packet switching internet memang sejak awal dirancang untuk bertahan terhadap gangguan global seperti ini.
Di era Perang Dingin, jaringan DARPA bertujuan menjaga rantai komando tetap berjalan bahkan saat terjadi serangan nuklir.
Sekarang justru saatnya kembali ke paradigma internet local-first
Belakangan saya merasa Cloudflare membuat internet menjadi lebih lambat dan merepotkan. Prosedur seperti “buktikan bahwa Anda manusia” makin sering muncul, dan pemuatan halaman juga melambat.
Tampaknya ini bukan untuk melindungi situs, melainkan karena kebijakan penagihan crawling AI (pengenalan Pay-per-crawl)
Sistem konfigurasi global Cloudflare berbahaya karena perubahan menyebar ke seluruh jaringan dalam hitungan detik tanpa rollout bertahap.
Perlu ada sistem yang bisa segera mengenali korelasi saat perubahan konfigurasi menimbulkan error
Penanggung jawab deployment seharusnya melihat metrik real-time dan segera menekan tombol rollback.
Bahkan sampai baris kode pun tercatat jelas di log, tetapi tampaknya ada keterputusan antara tim deployment dan tim yang memahami kode tersebut
Uptime Cloudflare sudah turun ke bawah 99,9%. Itu bahkan lebih buruk daripada PC rumah saya
Pada skala Cloudflare, seharusnya wajib ada lingkungan pengujian.
Semua perubahan harus disimulasikan lebih dulu dalam lingkungan model yang terisolasi lalu dirilis bertahap.
Yang lebih penting daripada sistem tipe yang kuat adalah pengaman prosedural
Tim yang sering membuat kesalahan diperlambat, sedangkan tim yang lebih tepercaya bergerak lebih cepat.
Pada akhirnya kecepatan teknis adalah soal pilihan. Jika SLA terancam, kecepatan harus dikurangi dan pengujian diperkuat
Tampaknya kualitas perangkat lunak Cloudflare sedang goyah.
Bahkan pernah ada bug di mana verifikasi akses untuk fitur khusus enterprise hanya dilakukan pada tahap terakhir
Perubahan hanya bisa dilakukan lewat tim dukungan, dan perbaikannya memakan waktu beberapa hari
Tautan kasus terkait
Saya penasaran dengan budaya operasional Cloudflare.
Kesalahan terjadi saat merespons isu keamanan, tetapi alih-alih rollback mereka malah melakukan deployment global lagi, dan itu keputusan yang berisiko.
Artinya mereka melanggar prinsip dasar, “kalau ragu, rollback”
Jika deployment ditunda, pelanggan bisa benar-benar diretas, jadi ini kasus di mana kecepatan adalah keamanan
Perbaikan pertama justru menyingkap bug laten pada yang kedua, sehingga kadang roll forward lebih realistis daripada rollback
Gangguan yang sering terjadi belakangan ini bisa jadi sinyal bahwa utang itu mulai muncul ke permukaan