Terjadi gangguan jaringan global Cloudflare
(cloudflarestatus.com)- Jaringan global Cloudflare mengalami penurunan performa layanan internal sehingga beberapa layanan terdampak secara intermiten
- Layanan utama seperti Access, Bot Management, CDN/Cache, Dashboard, Firewall, Network, WARP, Workers sempat mengalami gangguan sementara
- Tim engineering mengidentifikasi masalah dan melakukan perbaikan, sementara layanan WARP dan Access dipulihkan lebih dulu
- Setelah itu, tingkat error dan latensi di seluruh dunia berangsur pulih ke level normal, dan layanan dashboard juga dipulihkan
- Saat ini semua layanan beroperasi normal, dan insiden telah sepenuhnya diselesaikan
Ringkasan insiden
- Cloudflare mengalami penurunan performa layanan internal (Internal Service Degradation) yang menyebabkan sebagian layanan terhenti secara intermiten
- Layanan yang terdampak mencakup Access, Bot Management, CDN/Cache, Dashboard, Firewall, Network, WARP, Workers dan lainnya
- Perusahaan segera memulai pemulihan dan terus memperbarui perkembangan penanganan masalah
Identifikasi masalah dan respons awal
- Cloudflare mengonfirmasi penurunan layanan internal pada tahap Investigating
- Sebagian pelanggan mengalami error dan latensi secara intermiten
- Tim engineering menjalankan analisis penyebab dan pemulihan secara paralel
- Setelah itu, penyebab masalah diidentifikasi (Identified) dan perbaikan mulai dilakukan
- Selama proses perbaikan, akses WARP di wilayah London sempat dinonaktifkan sementara, sehingga pengguna di wilayah tersebut mengalami kegagalan koneksi internet
Progres pemulihan layanan
- Setelah perbaikan, layanan Access dan WARP dipulihkan lebih dulu sehingga tingkat error kembali ke level sebelum insiden
- Akses WARP di wilayah London diaktifkan kembali
- Setelah itu, pekerjaan pemulihan layanan untuk pelanggan Application Services dilanjutkan
- Perubahan untuk memulihkan layanan dashboard telah diterapkan
- Sebagian pelanggan masih mengalami masalah saat login atau menggunakan dashboard, tetapi hal ini diselesaikan dengan perbaikan tambahan
Stabilisasi di seluruh jaringan
- Secara global, tingkat error dan latensi (latency) berangsur menurun dan pulih ke level normal
- Perhitungan skor Bot Management (bot scores) sempat terdampak sementara, tetapi kembali normal selama proses pemulihan
- Tim engineering menghilangkan error yang tersisa dan mempercepat pemulihan seluruh jaringan
- Setelah itu, semua layanan kembali beroperasi normal, dan tingkat error serta latensi sepenuhnya kembali normal
Penutupan insiden dan tindak lanjut
- Cloudflare mengonfirmasi bahwa semua layanan beroperasi normal dan menutup insiden ini
- Saat ini tidak ada perubahan konfigurasi tambahan, dan platform sedang dipantau secara ketat
- Investigasi pascainsiden (post-incident investigation) terhadap penyebab gangguan sedang berlangsung, dan hasilnya akan dipublikasikan kemudian
- Gangguan kali ini dicatat sebagai insiden yang berdampak pada seluruh jaringan global
1 komentar
Komentar Hacker News
Seseorang membagikan perintah untuk menonaktifkan proxy CF bagi siapa pun yang punya token API Cloudflare
Dengan perintah
curl, Anda bisa mengambil zone ID dan DNS record, lalu mengirim requestPATCHdengan"proxied": falseNamun, perlu hati-hati karena ada risiko kehilangan sertifikat SSL, penurunan keamanan/performa, dan kebocoran IP backend
X-Auth-EmaildanX-Auth-KeyDan bagi yang hanya mengizinkan trafik Cloudflare, aturan itu harus dimatikan sementara
Untungnya sekarang sudah pulih dan kembali online
curl, request GET adalah default sehingga-X GETtidak diperlukanJika memakai opsi
-d, otomatis menjadi POST, dan untuk PATCH memang benar memakai-X PATCHNamun, bahkan setelah ditunnel, beberapa situs masih tetap down sebagian
Menurut CTO Cloudflare, bug potensial pada sistem pemblokiran bot mengamuk setelah perubahan konfigurasi dan menyebabkan gangguan di seluruh jaringan
Ia menjelaskan di sumber bahwa ini bukan serangan, melainkan masalah internal
Kode maupun konfigurasi sama-sama data, tetapi pola merilis ke seluruh dunia sekaligus lalu memicu outage besar terus berulang
Seorang rekan kerja tiba-tiba berlari menghampiri dan bilang bahwa tepat setelah ia mengubah konfigurasi Cloudflare, situsnya down, jadi ia panik mengira dirinya yang merusakkannya
Katanya ia lega setelah melihat postingan ini
Saat melihat pesan “Cloudflare down”, saya benar-benar merasa lega
Setelah dicek dari Belanda, hampir semua layanan sedang down
Dashboard Cloudflare juga tidak bisa diakses, begitu pula dashboard Betterstack
Ironisnya, halaman status tetap hidup sehingga malah tidak bisa dipakai untuk memberi tahu pelanggan
Saya pernah menulis postingan blog yang intinya “jangan taruh layanan di belakang Cloudflare kalau tidak perlu”
Meski begitu, saat outage sebesar ini terjadi, pelanggan ternyata menunjukkan pengertian yang tak terduga
Butuh beberapa menit, tetapi saya berhasil melepaskan hcker.news dari CF
saya menaruh widget uptime real-time yang terhubung ke halaman status eksternal di bagian bawah
Lihat status SVG dan
halaman status eksternal
Ada kepuasan tersendiri saat melihat layanan self-hosted saya tetap berjalan normal ketika Cloudflare atau AWS berhenti
Dibanding availability 99.999% mereka, saat ini sistem saya justru lebih stabil
Sekarang saya jadi berpikir untuk memasang uptime tracker
Ini pelajaran yang harus dipahami perusahaan SaaS baru
Jadi lucu sekaligus agak memuaskan melihat situs kecil saya ikut down
Belakangan ini terasa seperti gangguan infrastruktur berskala besar meningkat tajam. AWS dan Cloudflare sama-sama jauh di bawah SLA
Itu bukan angka uptime nyata, melainkan sekadar angka yang didefinisikan sepihak oleh perusahaan
Saat Cloudflare atau AWS berhenti, masalah sentralisasi yang membuat separuh web ikut berhenti menjadi sangat serius
Itulah alasan struktur seperti ini tidak berubah
CDN kecil sulit bersaing, dan akhirnya terbentuk struktur monopoli alami
Cloudflare menyediakan paket gratis sebagai strategi untuk memanfaatkan efek jaringan ini
Selain itu, tempat seperti ini juga berpotensi menjadi target terpusat bagi sensor pemerintah
Dua pertiga web bergantung padanya, masa berlaku sertifikat makin pendek, dan jika terjadi peretasan atau outage, seluruh web bisa lumpuh
Sekarang memang organisasi yang baik, tetapi jangan lupa Google di masa lalu juga dulu dipandang begitu
Backup di level software memang banyak, tetapi pengetahuan umum soal multi-hosting di level infrastruktur justru menghilang
Ironisnya, DownDetector juga memakai Cloudflare Turnstile sehingga ikut down
Pesan visual permintaan maaf Cloudflare berupa “Your browser: Working / Host: Working / Cloudflare: Error” terasa mengesankan
Situs yang memakai Cloudflare Challenge (“I’m not a robot”) juga berhenti dengan error HTTP 500
Muncul pesan yang meminta untuk membuka blokir
challenges.cloudflare.comPadahal backend sebenarnya mengembalikan error yang jelas, tetapi disembunyikan oleh frontend
Baru-baru ini saya bahkan melihat kasus error karena kata sandi terlalu panjang ditampilkan sebagai “email sudah digunakan”
Ironisnya, jadinya kita harus membuktikan kepada AI bahwa kita ini manusia
Penyangkalan gaya /s bahwa Cloudflare Captcha tidak mungkin down terasa lucu