23 poin oleh GN⁺ 2025-11-19 | Belum ada komentar. | Bagikan ke WhatsApp
  • Pada 18 November 2025 pukul 11:20 (UTC), fungsi inti pengiriman trafik di jaringan Cloudflare terhenti, sehingga pengguna di seluruh dunia melihat halaman error
  • Penyebabnya adalah file feature pada sistem Bot Management membesar secara tidak normal akibat perubahan izin database, dan tidak terkait dengan serangan siber
  • Kenaikan ukuran file ini membuat perangkat lunak routing trafik gagal setelah melampaui batasnya, sehingga error HTTP 5xx terjadi secara besar-besaran
  • Sekitar pukul 14:30, distribusi file bermasalah dihentikan dan diganti dengan versi sebelumnya yang normal sehingga trafik inti pulih, lalu semua layanan kembali normal pada pukul 17:06
  • Cloudflare menilai insiden ini sebagai gangguan terburuk sejak 2019, dan mendorong langkah pencegahan seperti penguatan validasi file konfigurasi serta penerapan kill switch global

Ringkasan gangguan

  • Sekitar pukul 11:20, terjadi kegagalan pengiriman trafik inti di jaringan Cloudflare, dan pengguna melihat halaman error internal Cloudflare
  • Bukan disebabkan oleh serangan siber atau tindakan jahat, melainkan langsung dipicu oleh perubahan izin pada sistem database
  • Perubahan itu membuat ukuran feature file yang digunakan sistem Bot Management meningkat dua kali lipat, lalu didistribusikan ke seluruh jaringan
  • Saat perangkat lunak routing trafik membaca file tersebut, batas ukuran file terlampaui, sehingga terjadi error sistem
  • Awalnya sempat disangka sebagai serangan DDoS berskala besar, tetapi setelah penyebabnya diketahui, pemulihan dilakukan dengan mengganti ke file normal sebelumnya

Perjalanan insiden dan dampaknya

  • Sebelum 11:20, rasio error 5xx masih berada di level normal, tetapi setelah itu error melonjak akibat distribusi feature file yang salah
  • Pada sebagian node klaster database ClickHouse, hasil query yang salah dihasilkan tiap 5 menit, sehingga file normal dan file abnormal didistribusikan secara bergantian, membuat sistem berulang kali pulih lalu gagal lagi
  • Mulai 14:30, pembuatan file bermasalah dihentikan dan file normal disisipkan secara manual, lalu pemulihan dilakukan dengan me-restart core proxy
  • Pada 17:06, semua layanan kembali normal
Layanan Dampak
Core CDN dan layanan keamanan Terjadi error HTTP 5xx
Turnstile Gagal dimuat, tidak bisa login
Workers KV Error 5xx melonjak akibat kegagalan gateway
Dashboard Tidak bisa login karena gangguan Turnstile
Email Security Akurasi deteksi spam sementara menurun, sebagian pemindahan otomatis gagal
Access Banyak kegagalan autentikasi, tetapi sesi yang sudah ada tetap dipertahankan
  • Selama periode gangguan, latensi respons CDN meningkat, yang disebabkan oleh lonjakan penggunaan CPU pada sistem debugging

Penyebab gangguan: sistem Bot Management

  • Modul Bot Management milik Cloudflare menggunakan model machine learning untuk menghasilkan skor bot per permintaan
  • File konfigurasi feature yang dipakai sebagai input model didistribusikan ke seluruh jaringan setiap beberapa menit untuk merespons ancaman terbaru
  • Akibat perubahan perilaku query ClickHouse, banyak baris feature duplikat ikut masuk, sehingga ukuran file membesar
  • Hal ini memicu error pada modul Bot Management dan menyebabkan respons HTTP 5xx dikembalikan, serta berdampak pada Workers KV dan Access
  • Pada mesin proxy baru FL2, terjadi error 5xx; sedangkan pada versi lama FL, skor bot disetel ke 0 sehingga false positive meningkat

Perubahan perilaku query ClickHouse

  • Pada 11:05, perubahan izin akses database di ClickHouse mulai didistribusikan
  • Sebelumnya, hanya metadata dari database default yang bisa diakses, tetapi setelah perubahan, metadata dari database r0 juga ikut terekspos
  • Query pembuat feature file milik Bot Management dijalankan tanpa filter nama database, sehingga pada akhirnya kolom duplikat ikut dikembalikan
  • Akibatnya, jumlah baris dalam feature file meningkat lebih dari dua kali lipat dan melampaui batas sistem

Pra-alokasi memori dan system panic

  • Modul Bot Management melakukan pra-alokasi memori dengan batas maksimum 200 feature machine learning
  • Saat file yang salah berisi lebih dari 200 feature, panic terjadi pada kode Rust, dengan keluaran error
    thread fl2_worker_thread panicked: called Result::unwrap() on an Err value
  • Hal ini menyebabkan lonjakan besar error HTTP 5xx

Dampak lain dan proses pemulihan

  • Workers KV dan Access bergantung pada core proxy, sehingga dampak gangguan meluas
    • Pada 13:04, Workers KV dipatch agar dapat melewati proxy, sehingga rasio error menurun
  • Dashboard tidak bisa login karena bergantung pada Turnstile dan Workers KV
    • Terjadi penurunan ketersediaan dua kali, pada 11:30–13:10 dan 14:40–15:30
    • Latensi meningkat akibat backlog dan permintaan retry, lalu pulih sekitar pukul 15:30
  • Setelah 14:30, sebagian besar layanan kembali normal, dan pada 17:06 pemulihan selesai sepenuhnya

Langkah pencegahan agar tidak terulang

  • Memperkuat validasi input untuk file konfigurasi yang dihasilkan Cloudflare
  • Memperluas kill switch fitur global
  • Mencegah kehabisan sumber daya sistem akibat pelaporan error
  • Meninjau kondisi error di seluruh modul core proxy

Ringkasan timeline (UTC)

Waktu Status Penjelasan
11:05 Normal Perubahan kontrol akses database mulai didistribusikan
11:28 Dampak mulai terasa Error pertama muncul pada trafik pelanggan
11:32–13:05 Investigasi berlangsung Analisis penyebab error Workers KV, upaya mitigasi
13:05 Dampak berkurang Bypass diterapkan untuk Workers KV dan Access
13:37 Fokus pada pemulihan Persiapan rollback file konfigurasi Bot Management
14:24 Distribusi file bermasalah dihentikan Pengujian file normal selesai
14:30 Dampak utama teratasi File normal didistribusikan secara global, pemulihan layanan dimulai
17:06 Pulih sepenuhnya Semua layanan kembali normal

Kesimpulan

  • Gangguan ini terjadi akibat interaksi antara logika pembuatan file konfigurasi Bot Management dan perubahan izin database
  • Cloudflare menilai ini sebagai gangguan jaringan paling serius sejak 2019
  • Ke depan, perusahaan akan mendorong perbaikan struktural untuk memperkuat ketahanan sistem dan memperkuat mekanisme pertahanan otomatis

Belum ada komentar.

Belum ada komentar.