Laporan Insiden GCP 2025-06-12
(status.cloud.google.com)- Service Control: salah satu modul inti yang digunakan oleh API Google dan Google Cloud
- Pada 2025-05-29, fitur baru dirilis ke Service Control. Fitur ini berfungsi untuk memeriksa kebijakan baru
- Ketika kebijakan baru ditambahkan pada 2025-06-12, masalah mulai terjadi:
- crash loop* akibat null pointer
- tidak ada feature flag. Namun, red-button dijalankan untuk penghentian darurat
- di region besar seperti us-central-1, tindakan ini menyebabkan herd effect* pada layanan internal yang bergantung padanya. Alasannya, strategi randomized exponential backoff** tidak diimplementasikan
- Artinya lalu lintas menumpuk sangat besar sekaligus.
** Ini adalah teknik untuk mencegah kelebihan beban lalu lintas.
5 komentar
Di GN+ juga sudah ada tulisan yang membahas laporan yang sama.
Bahkan perusahaan besar seperti Google rupanya masih punya kode di sana-sini yang bahkan belum menerapkan langkah dasar seperti menambahkan jitter saat menangani retry.
Mungkin karena sebelumnya masalah seperti ini tidak pernah muncul, jadi dibiarkan begitu saja; sepertinya kebiasaan untuk tidak menyentuh kode yang sudah berjalan baik juga sama saja bahkan di perusahaan raksasa.
Sekarang setelah saya lihat lagi, formatnya memang sedikit rusak. Dua baris terakhir masing-masing adalah catatan tentang crash loop dan randomized exponential backoff.
Apakah ini terkait dengan gangguan pada posting internet down yang terjadi beberapa hari lalu?
Ya, benar, ini tentang gangguan tersebut.