Pembaruan laporan gangguan Google #20013 (2020/12/14)
(status.cloud.google.com)Pembaruan 2020/12/18 (penyebab dan langkah penanganan ditambahkan)
#ROOT CAUSE
Sejak Oktober lalu, sistem alokasi storage otomatis baru telah diperkenalkan ke layanan User ID Google. Beberapa layanan masih menggunakan sistem kuota lama, dan memiliki masalah yang melaporkan penggunaan sebagai 0. Laporan 0 tersebut tidak langsung berdampak karena waktu Expire masih tersisa, tetapi setelah waktunya habis, kuota layanan User ID dikurangi dan gangguan pun terjadi. Memang ada item pemeriksaan keamanan untuk memverifikasi perubahan kuota yang tidak disengaja, tetapi itu tidak menangani skenario bernilai 0.
Kuota database akun berkurang, penulisan oleh Paxos leader menjadi tidak mungkin, dan sebagian besar operasi baca pun kedaluwarsa, sehingga terjadi kesalahan saat kueri autentikasi.
#REMEDIATION AND PREVENTION
-
Meninjau otomasi manajemen kuota untuk mencegah implementasi perubahan global yang terlalu cepat
-
Meningkatkan monitoring dan alert agar konfigurasi yang salah bisa cepat terdeteksi
-
Meningkatkan keandalan tool dan proses untuk komunikasi eksternal saat gangguan disebabkan oleh tool internal
-
Menerapkan resilience terhadap kesalahan tulis pada database layanan User ID
-
Meningkatkan resilience layanan GCP dengan membatasi secara ketat dampak pada area data saat layanan User ID gagal
- Laporan terperinci tentang gangguan yang terjadi pada 14 Desember sudah diperbarui, jadi saya membacanya lalu mencoba menerjemahkannya secara cepat. Kalau ada kesalahan, tolong beri tahu. Dan karena saya selalu menikmati membaca GeekNews, kalau ada konten menarik terkait gangguan, saya akan coba bagikan juga.
Belum ada komentar.