Berbagi rincian tentang insiden terbaru yang berdampak pada pelanggan
Dukungan pelanggan Google Cloud
- Awal bulan ini, terjadi insiden Google Cloud yang berdampak pada pelanggan UniSuper di Australia.
- Segera setelah insiden terjadi, prioritas utama adalah memulihkan sistem sepenuhnya bersama pelanggan.
- Tak lama setelah insiden dimulai, insiden tersebut diakui secara publik melalui pernyataan bersama dengan pelanggan.
- Setelah sistem pelanggan pulih sepenuhnya, tinjauan internal diselesaikan.
- Informasi ini dibagikan untuk memperjelas sifat insiden dan memberikan penjelasan yang akurat demi transparansi.
- Google Cloud telah mengambil langkah-langkah agar insiden spesifik dan terisolasi ini tidak terjadi lagi.
- Dampak insiden ini sangat mengecewakan, dan kami dengan tulus meminta maaf atas ketidaknyamanan yang dialami pelanggan.
Cakupan dampak
Teknologi dan layanan yang terdampak
- Insiden ini memengaruhi layanan terkelola Google berikut:
- Satu pelanggan di satu region cloud.
- Google Cloud VMware Engine (GCVE), salah satu layanan Google Cloud yang digunakan pelanggan tersebut.
- Salah satu dari beberapa private cloud GCVE milik pelanggan yang tersebar di dua zone.
Yang tidak terdampak
- Insiden ini tidak memengaruhi hal-hal berikut:
- Layanan Google Cloud lainnya.
- Pelanggan lain yang menggunakan GCVE atau layanan Google Cloud lainnya.
- Private cloud GCVE lain milik pelanggan, akun Google, organisasi, folder, atau project.
- Backup data pelanggan (Google Cloud Storage) yang disimpan di region yang sama.
Penyebab insiden
Ringkasan
- Saat melakukan deployment awal private cloud Google Cloud VMware Engine (GCVE) untuk pelanggan, operator Google salah mengonfigurasi layanan GCVE menggunakan alat internal. Hal ini terjadi karena satu parameter dibiarkan kosong.
- Akibatnya, private cloud GCVE pelanggan disetel ke durasi tetap, dan setelah periode tersebut berakhir, sistem diatur untuk menghapusnya secara otomatis.
- Penyebab insiden dan perilaku sistem ini telah diperbaiki agar tidak terulang lagi.
- Insiden ini tidak memengaruhi layanan Google Cloud lain selain satu private cloud GCVE milik pelanggan ini.
- Pelanggan lain tidak terdampak oleh insiden ini.
Analisis terperinci
Deployment menggunakan proses pengecualian
- Pada awal 2023, operator Google menggunakan alat internal untuk men-deploy salah satu private cloud GCVE milik pelanggan guna memenuhi kebutuhan penempatan kapasitas tertentu.
- Alat internal manajemen kapasitas ini dihentikan pada kuartal keempat 2023, dan kini proses tersebut sudah sepenuhnya otomatis tanpa memerlukan campur tangan manusia.
Perilaku tak terduga akibat parameter input kosong
- Operator Google telah mengikuti protokol kontrol internal.
- Namun, saat menggunakan alat internal untuk melakukan provisioning private cloud pelanggan, satu parameter input dibiarkan kosong.
- Akibatnya, sistem menetapkan nilai default durasi tetap 1 tahun untuk parameter tersebut, yang saat itu belum diketahui.
- Setelah durasi 1 tahun yang ditetapkan sistem berakhir, private cloud GCVE pelanggan dihapus.
- Karena penghapusan terjadi akibat parameter yang dibiarkan kosong saat operator Google menggunakan alat internal, tidak ada notifikasi yang dikirim kepada pelanggan.
- Jika penghapusan dipicu oleh pelanggan, hal itu hanya akan terjadi setelah notifikasi dikirim kepada pelanggan.
Pemulihan
- Selama beberapa hari, pelanggan dan tim Google bekerja sama tanpa henti 24 jam untuk memulihkan private cloud GCVE pelanggan, mengembalikan konfigurasi jaringan dan keamanan, memulihkan aplikasi, dan mengembalikan data hingga operasi kembali sepenuhnya.
- Hal ini dimungkinkan berkat pendekatan arsitektur pelanggan yang kuat dan tangguh.
- Backup data yang tersimpan di Google Cloud Storage pada region yang sama tidak terdampak oleh penghapusan, dan bersama perangkat lunak backup pihak ketiga berperan penting dalam pemulihan yang cepat.
Tindakan perbaikan
- Google Cloud telah mengambil beberapa langkah agar insiden ini tidak terjadi lagi:
- Menghentikan alat internal yang memicu insiden ini. Bagian ini kini sepenuhnya otomatis dan dapat dikendalikan pelanggan melalui antarmuka pengguna.
- Membersihkan database sistem dan meninjau secara manual seluruh private cloud GCVE untuk memastikan tidak ada deployment GCVE lain yang berisiko.
- Memperbaiki perilaku sistem dalam workflow deployment ini yang dapat menyetel private cloud GCVE untuk dihapus.
Kesimpulan
- Ini adalah pertama kalinya insiden dengan sifat seperti ini terjadi di Google Cloud. Ini bukan masalah yang bersifat sistemik.
- Layanan Google Cloud memiliki perlindungan yang kuat seperti soft delete, notifikasi sebelumnya, dan campur tangan manusia.
- Dipastikan bahwa perlindungan ini tetap berlaku.
- Bekerja sama erat dengan pelanggan sangat penting untuk pemulihan yang cepat. CIO dan tim teknis pelanggan patut diapresiasi karena telah bekerja sangat dekat dengan tim Google Cloud untuk melakukan pemulihan 24 jam dengan cepat dan akurat.
- Manajemen risiko yang kuat dan tangguh sangat penting untuk pemulihan cepat saat terjadi insiden tak terduga.
- Google Cloud tetap memiliki infrastruktur cloud yang paling tangguh dan andal di dunia. Terlepas dari insiden satu kali ini, uptime dan ketangguhan kami telah diverifikasi secara independen.
Opini GN⁺
- Pentingnya insiden ini: Insiden ini menunjukkan betapa pentingnya penyedia layanan cloud menangani masalah dengan cepat dan bekerja sama dengan pelanggan.
- Kebutuhan akan otomatisasi: Ini menekankan betapa pentingnya otomatisasi alat internal, terutama ketika kesalahan manusia dapat berdampak besar pada sistem.
- Kolaborasi dengan pelanggan: Ini menunjukkan betapa pentingnya kerja sama yang erat dengan pelanggan dalam menyelesaikan masalah. Hal ini juga menjadi elemen penting dalam membangun kepercayaan.
- Pentingnya backup data: Ini menegaskan betapa pentingnya backup data, terutama agar pemulihan cepat dapat dilakukan saat terjadi insiden tak terduga.
- Langkah pencegahan ke depan: Langkah-langkah yang diambil Google Cloud untuk mencegah terulangnya insiden ini dapat menjadi contoh yang baik bagi penyedia layanan cloud lainnya.
1 komentar
Komentar Hacker News
Ringkasan kumpulan komentar Hacker News
Keluhan tentang kedalaman penyelesaian masalah
Pertanyaan tentang langkah perlindungan pelanggan GCP
Keraguan tentang kerja 24x7
Insiden terkait
Kejutan atas kesalahan dari pihak Google
Ketelitian peninjauan
Harapan terhadap GCP
Pujian atas upaya pelanggan
Pengalaman pelanggan UniSuper
Kesalahpahaman pada pengumuman awal