1 poin oleh GN⁺ 2025-12-06 | Belum ada komentar. | Bagikan ke WhatsApp
  • Pada 5 Desember 2025 pukul 08:47 UTC, sebagian jaringan Cloudflare mengalami gangguan serius, dan pulih sepenuhnya pada 09:12, sekitar 25 menit kemudian
  • Sekitar 28% dari total trafik HTTP terdampak, dan hanya pelanggan yang memenuhi kondisi tertentu yang mengalami gangguan
  • Penyebabnya adalah perubahan WAF (logika parsing body) yang dilakukan saat menangani kerentanan React Server Components (CVE-2025-55182), dan tidak terkait dengan serangan siber
  • Karena bug kode pada proxy FL1, terjadi error HTTP 500, sementara bug yang sama tidak muncul pada proxy FL2 berbasis Rust yang baru
  • Cloudflare mengakui bahwa masalah serupa kembali terulang setelah gangguan 18 November, dan kini menjalankan proyek penguatan keamanan deployment dan resiliensi sebagai prioritas tertinggi

Ringkasan gangguan

  • Pada 5 Desember 2025 pukul 08:47 UTC, terjadi gangguan pada sebagian jaringan Cloudflare
    • Semua layanan pulih pada 09:12, dengan total dampak selama 25 menit
    • Sekitar 28% dari total trafik HTTP terdampak
  • Gangguan ini tidak terkait dengan serangan siber atau tindakan berbahaya, melainkan terjadi saat perubahan konfigurasi internal
  • Penyebabnya adalah modifikasi logika parsing body pada WAF untuk merespons kerentanan baru di React Server Components

Penyebab gangguan dan latar belakang teknis

  • WAF Cloudflare melakukan buffering body request HTTP ke memori untuk mendeteksi payload berbahaya
    • Ukuran buffer yang ada sedang diperluas dari 128KB menjadi 1MB
  • Karena alat pengujian internal tidak mendukung ukuran buffer baru, dilakukan perubahan kedua untuk menonaktifkan alat pengujian tersebut
    • Perubahan ini langsung disebarkan ke seluruh server melalui sistem konfigurasi global
  • Pada proxy FL1, perubahan ini memicu kondisi error, sehingga menghasilkan respons HTTP 500
    • Pesan error: attempt to index field 'execute' (a nil value)
  • Masalah segera diidentifikasi, dan perubahan dibatalkan pada 09:12

Cakupan dampak

  • Hanya pelanggan yang menggunakan proxy FL1 dan menerapkan Cloudflare Managed Ruleset yang terdampak
    • Semua request ke situs tersebut mengembalikan error HTTP 500
    • Beberapa endpoint pengujian seperti /cdn-cgi/trace menjadi pengecualian
  • Jaringan di Tiongkok dan pelanggan dengan konfigurasi lain tidak terdampak

Detail error runtime

  • Sistem rulesets Cloudflare mengevaluasi aturan pada setiap request
    • Aturan terdiri dari filter dan action, dan action execute memanggil kumpulan aturan lain
  • Sistem logging internal menggunakan execute untuk mengevaluasi aturan pengujian
  • Sistem killswitch dirancang untuk menonaktifkan aturan yang bermasalah, namun
    • Ini adalah pertama kalinya killswitch diterapkan pada aturan yang berisi action execute
  • Terjadi error Lua karena sistem mencoba mengakses saat objek execute tidak ada
  • Error ini adalah bug kode sederhana yang telah ada selama bertahun-tahun namun tidak terdeteksi
    • Bug yang sama tidak terjadi pada proxy FL2 yang ditulis dengan Rust

Perkembangan perbaikan setelah gangguan 18 November

  • Pada 18 November juga terjadi gangguan luas akibat deployment global yang serupa
  • Saat itu, Cloudflare berkomunikasi langsung dengan ratusan pelanggan dan membagikan rencana untuk mencegah satu update menyebar penuh ke seluruh sistem
  • Pekerjaan perbaikan tersebut belum selesai, sehingga ikut memengaruhi gangguan kali ini
  • Cloudflare menetapkannya sebagai prioritas tertinggi di seluruh organisasi

Proyek penguatan resiliensi yang sedang berjalan

  • Enhanced Rollouts & Versioning
    • Menerapkan deployment bertahap, verifikasi kesehatan, dan rollback cepat juga pada perubahan data serta konfigurasi untuk respons ancaman
  • Streamlined Break Glass Capabilities
    • Menjamin kemampuan intervensi darurat bahkan saat terjadi interaksi antara layanan internal dan control plane
  • Fail-Open error handling
    • Saat terjadi error pada file konfigurasi, request tidak diblokir, melainkan dialihkan ke kondisi normal dasar atau trafik dibiarkan lewat
    • Beberapa layanan direncanakan akan menyediakan opsi fail-open/fail-closed
  • Detail seluruh proyek resiliensi akan diumumkan dalam minggu depan
  • Sampai saat itu, perubahan pada jaringan akan tetap dihentikan sepenuhnya (lockdown)

Timeline (UTC)

  • 08:47 – Deployment perubahan konfigurasi dan mulai propagasi ke jaringan
  • 08:48 – Dampak penuh terjadi
  • 08:50 – Insiden dinyatakan melalui peringatan otomatis
  • 09:11 – Mulai rollback perubahan
  • 09:12 – Pemulihan selesai, seluruh trafik kembali normal

Kesimpulan

  • Cloudflare mengakui keseriusan dua gangguan beruntun dan meminta maaf kepada pelanggan serta internet secara keseluruhan
  • Ke depan, perusahaan berencana mencegah insiden serupa melalui penguatan keamanan deployment, toleransi error, dan resiliensi

Belum ada komentar.

Belum ada komentar.