Analisis pasca-insiden gangguan Cloudflare pada 18 November 2025
(blog.cloudflare.com)- Pada 18 November 2025 pukul 11:20 (UTC), fungsi inti pengiriman trafik di jaringan Cloudflare terhenti, sehingga pengguna di seluruh dunia melihat halaman error
- Penyebabnya adalah file
featurepada sistem Bot Management membesar secara tidak normal akibat perubahan izin database, dan tidak terkait dengan serangan siber - Kenaikan ukuran file ini membuat perangkat lunak routing trafik gagal setelah melampaui batasnya, sehingga error HTTP 5xx terjadi secara besar-besaran
- Sekitar pukul 14:30, distribusi file bermasalah dihentikan dan diganti dengan versi sebelumnya yang normal sehingga trafik inti pulih, lalu semua layanan kembali normal pada pukul 17:06
- Cloudflare menilai insiden ini sebagai gangguan terburuk sejak 2019, dan mendorong langkah pencegahan seperti penguatan validasi file konfigurasi serta penerapan kill switch global
Ringkasan gangguan
- Sekitar pukul 11:20, terjadi kegagalan pengiriman trafik inti di jaringan Cloudflare, dan pengguna melihat halaman error internal Cloudflare
- Bukan disebabkan oleh serangan siber atau tindakan jahat, melainkan langsung dipicu oleh perubahan izin pada sistem database
- Perubahan itu membuat ukuran
feature fileyang digunakan sistem Bot Management meningkat dua kali lipat, lalu didistribusikan ke seluruh jaringan - Saat perangkat lunak routing trafik membaca file tersebut, batas ukuran file terlampaui, sehingga terjadi error sistem
- Awalnya sempat disangka sebagai serangan DDoS berskala besar, tetapi setelah penyebabnya diketahui, pemulihan dilakukan dengan mengganti ke file normal sebelumnya
Perjalanan insiden dan dampaknya
- Sebelum 11:20, rasio error 5xx masih berada di level normal, tetapi setelah itu error melonjak akibat distribusi
feature fileyang salah - Pada sebagian node klaster database ClickHouse, hasil query yang salah dihasilkan tiap 5 menit, sehingga file normal dan file abnormal didistribusikan secara bergantian, membuat sistem berulang kali pulih lalu gagal lagi
- Mulai 14:30, pembuatan file bermasalah dihentikan dan file normal disisipkan secara manual, lalu pemulihan dilakukan dengan me-restart core proxy
- Pada 17:06, semua layanan kembali normal
| Layanan | Dampak |
|---|---|
| Core CDN dan layanan keamanan | Terjadi error HTTP 5xx |
| Turnstile | Gagal dimuat, tidak bisa login |
| Workers KV | Error 5xx melonjak akibat kegagalan gateway |
| Dashboard | Tidak bisa login karena gangguan Turnstile |
| Email Security | Akurasi deteksi spam sementara menurun, sebagian pemindahan otomatis gagal |
| Access | Banyak kegagalan autentikasi, tetapi sesi yang sudah ada tetap dipertahankan |
- Selama periode gangguan, latensi respons CDN meningkat, yang disebabkan oleh lonjakan penggunaan CPU pada sistem debugging
Penyebab gangguan: sistem Bot Management
- Modul Bot Management milik Cloudflare menggunakan model machine learning untuk menghasilkan skor bot per permintaan
- File konfigurasi
featureyang dipakai sebagai input model didistribusikan ke seluruh jaringan setiap beberapa menit untuk merespons ancaman terbaru - Akibat perubahan perilaku query ClickHouse, banyak baris
featureduplikat ikut masuk, sehingga ukuran file membesar - Hal ini memicu error pada modul Bot Management dan menyebabkan respons HTTP 5xx dikembalikan, serta berdampak pada Workers KV dan Access
- Pada mesin proxy baru FL2, terjadi error 5xx; sedangkan pada versi lama FL, skor bot disetel ke 0 sehingga false positive meningkat
Perubahan perilaku query ClickHouse
- Pada 11:05, perubahan izin akses database di ClickHouse mulai didistribusikan
- Sebelumnya, hanya metadata dari database
defaultyang bisa diakses, tetapi setelah perubahan, metadata dari databaser0juga ikut terekspos - Query pembuat
feature filemilik Bot Management dijalankan tanpa filter nama database, sehingga pada akhirnya kolom duplikat ikut dikembalikan - Akibatnya, jumlah baris dalam
feature filemeningkat lebih dari dua kali lipat dan melampaui batas sistem
Pra-alokasi memori dan system panic
- Modul Bot Management melakukan pra-alokasi memori dengan batas maksimum 200 feature machine learning
- Saat file yang salah berisi lebih dari 200 feature, panic terjadi pada kode Rust, dengan keluaran error
thread fl2_worker_thread panicked: called Result::unwrap() on an Err value - Hal ini menyebabkan lonjakan besar error HTTP 5xx
Dampak lain dan proses pemulihan
- Workers KV dan Access bergantung pada core proxy, sehingga dampak gangguan meluas
- Pada 13:04, Workers KV dipatch agar dapat melewati proxy, sehingga rasio error menurun
- Dashboard tidak bisa login karena bergantung pada Turnstile dan Workers KV
- Terjadi penurunan ketersediaan dua kali, pada 11:30–13:10 dan 14:40–15:30
- Latensi meningkat akibat backlog dan permintaan retry, lalu pulih sekitar pukul 15:30
- Setelah 14:30, sebagian besar layanan kembali normal, dan pada 17:06 pemulihan selesai sepenuhnya
Langkah pencegahan agar tidak terulang
- Memperkuat validasi input untuk file konfigurasi yang dihasilkan Cloudflare
- Memperluas kill switch fitur global
- Mencegah kehabisan sumber daya sistem akibat pelaporan error
- Meninjau kondisi error di seluruh modul core proxy
Ringkasan timeline (UTC)
| Waktu | Status | Penjelasan |
|---|---|---|
| 11:05 | Normal | Perubahan kontrol akses database mulai didistribusikan |
| 11:28 | Dampak mulai terasa | Error pertama muncul pada trafik pelanggan |
| 11:32–13:05 | Investigasi berlangsung | Analisis penyebab error Workers KV, upaya mitigasi |
| 13:05 | Dampak berkurang | Bypass diterapkan untuk Workers KV dan Access |
| 13:37 | Fokus pada pemulihan | Persiapan rollback file konfigurasi Bot Management |
| 14:24 | Distribusi file bermasalah dihentikan | Pengujian file normal selesai |
| 14:30 | Dampak utama teratasi | File normal didistribusikan secara global, pemulihan layanan dimulai |
| 17:06 | Pulih sepenuhnya | Semua layanan kembali normal |
Kesimpulan
- Gangguan ini terjadi akibat interaksi antara logika pembuatan file konfigurasi Bot Management dan perubahan izin database
- Cloudflare menilai ini sebagai gangguan jaringan paling serius sejak 2019
- Ke depan, perusahaan akan mendorong perbaikan struktural untuk memperkuat ketahanan sistem dan memperkuat mekanisme pertahanan otomatis
Belum ada komentar.