Analisis pasca-insiden gangguan Cloudflare pada 18 November 2025

(blog.cloudflare.com)

23 poin oleh GN⁺ 2025-11-19 | 8 komentar | Bagikan ke WhatsApp

Pada 18 November 2025 pukul 11:20 (UTC), fungsi inti pengiriman trafik di jaringan Cloudflare terhenti, sehingga pengguna di seluruh dunia melihat halaman error
Penyebabnya adalah file feature pada sistem Bot Management membesar secara tidak normal akibat perubahan izin database, dan tidak terkait dengan serangan siber
Kenaikan ukuran file ini membuat perangkat lunak routing trafik gagal setelah melampaui batasnya, sehingga error HTTP 5xx terjadi secara besar-besaran
Sekitar pukul 14:30, distribusi file bermasalah dihentikan dan diganti dengan versi sebelumnya yang normal sehingga trafik inti pulih, lalu semua layanan kembali normal pada pukul 17:06
Cloudflare menilai insiden ini sebagai gangguan terburuk sejak 2019, dan mendorong langkah pencegahan seperti penguatan validasi file konfigurasi serta penerapan kill switch global

Ringkasan gangguan

Sekitar pukul 11:20, terjadi kegagalan pengiriman trafik inti di jaringan Cloudflare, dan pengguna melihat halaman error internal Cloudflare
Bukan disebabkan oleh serangan siber atau tindakan jahat, melainkan langsung dipicu oleh perubahan izin pada sistem database
Perubahan itu membuat ukuran feature file yang digunakan sistem Bot Management meningkat dua kali lipat, lalu didistribusikan ke seluruh jaringan
Saat perangkat lunak routing trafik membaca file tersebut, batas ukuran file terlampaui, sehingga terjadi error sistem
Awalnya sempat disangka sebagai serangan DDoS berskala besar, tetapi setelah penyebabnya diketahui, pemulihan dilakukan dengan mengganti ke file normal sebelumnya

Perjalanan insiden dan dampaknya

Sebelum 11:20, rasio error 5xx masih berada di level normal, tetapi setelah itu error melonjak akibat distribusi feature file yang salah
Pada sebagian node klaster database ClickHouse, hasil query yang salah dihasilkan tiap 5 menit, sehingga file normal dan file abnormal didistribusikan secara bergantian, membuat sistem berulang kali pulih lalu gagal lagi
Mulai 14:30, pembuatan file bermasalah dihentikan dan file normal disisipkan secara manual, lalu pemulihan dilakukan dengan me-restart core proxy
Pada 17:06, semua layanan kembali normal

Layanan	Dampak
Core CDN dan layanan keamanan	Terjadi error HTTP 5xx
Turnstile	Gagal dimuat, tidak bisa login
Workers KV	Error 5xx melonjak akibat kegagalan gateway
Dashboard	Tidak bisa login karena gangguan Turnstile
Email Security	Akurasi deteksi spam sementara menurun, sebagian pemindahan otomatis gagal
Access	Banyak kegagalan autentikasi, tetapi sesi yang sudah ada tetap dipertahankan

Selama periode gangguan, latensi respons CDN meningkat, yang disebabkan oleh lonjakan penggunaan CPU pada sistem debugging

Penyebab gangguan: sistem Bot Management

Modul Bot Management milik Cloudflare menggunakan model machine learning untuk menghasilkan skor bot per permintaan
File konfigurasi feature yang dipakai sebagai input model didistribusikan ke seluruh jaringan setiap beberapa menit untuk merespons ancaman terbaru
Akibat perubahan perilaku query ClickHouse, banyak baris feature duplikat ikut masuk, sehingga ukuran file membesar
Hal ini memicu error pada modul Bot Management dan menyebabkan respons HTTP 5xx dikembalikan, serta berdampak pada Workers KV dan Access
Pada mesin proxy baru FL2, terjadi error 5xx; sedangkan pada versi lama FL, skor bot disetel ke 0 sehingga false positive meningkat

Perubahan perilaku query ClickHouse

Pada 11:05, perubahan izin akses database di ClickHouse mulai didistribusikan
Sebelumnya, hanya metadata dari database default yang bisa diakses, tetapi setelah perubahan, metadata dari database r0 juga ikut terekspos
Query pembuat feature file milik Bot Management dijalankan tanpa filter nama database, sehingga pada akhirnya kolom duplikat ikut dikembalikan
Akibatnya, jumlah baris dalam feature file meningkat lebih dari dua kali lipat dan melampaui batas sistem

Pra-alokasi memori dan system panic

Modul Bot Management melakukan pra-alokasi memori dengan batas maksimum 200 feature machine learning
Saat file yang salah berisi lebih dari 200 feature, panic terjadi pada kode Rust, dengan keluaran error
thread fl2_worker_thread panicked: called Result::unwrap() on an Err value
Hal ini menyebabkan lonjakan besar error HTTP 5xx

Dampak lain dan proses pemulihan

Workers KV dan Access bergantung pada core proxy, sehingga dampak gangguan meluas
- Pada 13:04, Workers KV dipatch agar dapat melewati proxy, sehingga rasio error menurun
Dashboard tidak bisa login karena bergantung pada Turnstile dan Workers KV
- Terjadi penurunan ketersediaan dua kali, pada 11:30–13:10 dan 14:40–15:30
- Latensi meningkat akibat backlog dan permintaan retry, lalu pulih sekitar pukul 15:30
Setelah 14:30, sebagian besar layanan kembali normal, dan pada 17:06 pemulihan selesai sepenuhnya

Langkah pencegahan agar tidak terulang

Memperkuat validasi input untuk file konfigurasi yang dihasilkan Cloudflare
Memperluas kill switch fitur global
Mencegah kehabisan sumber daya sistem akibat pelaporan error
Meninjau kondisi error di seluruh modul core proxy

Ringkasan timeline (UTC)

Waktu	Status	Penjelasan
11:05	Normal	Perubahan kontrol akses database mulai didistribusikan
11:28	Dampak mulai terasa	Error pertama muncul pada trafik pelanggan
11:32–13:05	Investigasi berlangsung	Analisis penyebab error Workers KV, upaya mitigasi
13:05	Dampak berkurang	Bypass diterapkan untuk Workers KV dan Access
13:37	Fokus pada pemulihan	Persiapan rollback file konfigurasi Bot Management
14:24	Distribusi file bermasalah dihentikan	Pengujian file normal selesai
14:30	Dampak utama teratasi	File normal didistribusikan secara global, pemulihan layanan dimulai
17:06	Pulih sepenuhnya	Semua layanan kembali normal

Kesimpulan

Gangguan ini terjadi akibat interaksi antara logika pembuatan file konfigurasi Bot Management dan perubahan izin database
Cloudflare menilai ini sebagai gangguan jaringan paling serius sejak 2019
Ke depan, perusahaan akan mendorong perbaikan struktural untuk memperkuat ketahanan sistem dan memperkuat mekanisme pertahanan otomatis

8 komentar

t7vonn 2025-11-19

Gangguan yang terkait dengan file konfigurasi memang bisa terjadi di mana saja.

princox 2025-11-19

Saat Cloudflare tidak berfungsi dan berbagai layanan ikut terhenti, rasanya seperti neraka..

barca105 2025-11-19

Bahkan di perusahaan sekelas Cloudflare pun mereka pakai .unwrap() ya, duh. Gimana bisa kode itu diterapkan ke production?

skageektp 2025-11-19

Sepertinya masalahnya bukan pada unwrap

barca105 2025-11-19

Masalah mendasarnya adalah kueri yang salah.
Tapi saya juga pikir melewatkan verifikasi masalah dengan unwrap itu juga masalah.
Kalau penanganan error dilakukan meskipun masalah terjadi secara internal, trafik mungkin tidak akan sampai down.

epdlemflaj 2025-11-19

Dokumen analisis penyebabnya ternyata dirilis cukup cepat ya, wow