1 poin oleh GN⁺ 2024-05-26 | 1 komentar | Bagikan ke WhatsApp

Berbagi rincian tentang insiden terbaru yang berdampak pada pelanggan

Dukungan pelanggan Google Cloud

  • Awal bulan ini, terjadi insiden Google Cloud yang berdampak pada pelanggan UniSuper di Australia.
  • Segera setelah insiden terjadi, prioritas utama adalah memulihkan sistem sepenuhnya bersama pelanggan.
  • Tak lama setelah insiden dimulai, insiden tersebut diakui secara publik melalui pernyataan bersama dengan pelanggan.
  • Setelah sistem pelanggan pulih sepenuhnya, tinjauan internal diselesaikan.
  • Informasi ini dibagikan untuk memperjelas sifat insiden dan memberikan penjelasan yang akurat demi transparansi.
  • Google Cloud telah mengambil langkah-langkah agar insiden spesifik dan terisolasi ini tidak terjadi lagi.
  • Dampak insiden ini sangat mengecewakan, dan kami dengan tulus meminta maaf atas ketidaknyamanan yang dialami pelanggan.

Cakupan dampak

Teknologi dan layanan yang terdampak

  • Insiden ini memengaruhi layanan terkelola Google berikut:
    • Satu pelanggan di satu region cloud.
    • Google Cloud VMware Engine (GCVE), salah satu layanan Google Cloud yang digunakan pelanggan tersebut.
    • Salah satu dari beberapa private cloud GCVE milik pelanggan yang tersebar di dua zone.

Yang tidak terdampak

  • Insiden ini tidak memengaruhi hal-hal berikut:
    • Layanan Google Cloud lainnya.
    • Pelanggan lain yang menggunakan GCVE atau layanan Google Cloud lainnya.
    • Private cloud GCVE lain milik pelanggan, akun Google, organisasi, folder, atau project.
    • Backup data pelanggan (Google Cloud Storage) yang disimpan di region yang sama.

Penyebab insiden

Ringkasan

  • Saat melakukan deployment awal private cloud Google Cloud VMware Engine (GCVE) untuk pelanggan, operator Google salah mengonfigurasi layanan GCVE menggunakan alat internal. Hal ini terjadi karena satu parameter dibiarkan kosong.
  • Akibatnya, private cloud GCVE pelanggan disetel ke durasi tetap, dan setelah periode tersebut berakhir, sistem diatur untuk menghapusnya secara otomatis.
  • Penyebab insiden dan perilaku sistem ini telah diperbaiki agar tidak terulang lagi.
  • Insiden ini tidak memengaruhi layanan Google Cloud lain selain satu private cloud GCVE milik pelanggan ini.
  • Pelanggan lain tidak terdampak oleh insiden ini.

Analisis terperinci

Deployment menggunakan proses pengecualian
  • Pada awal 2023, operator Google menggunakan alat internal untuk men-deploy salah satu private cloud GCVE milik pelanggan guna memenuhi kebutuhan penempatan kapasitas tertentu.
  • Alat internal manajemen kapasitas ini dihentikan pada kuartal keempat 2023, dan kini proses tersebut sudah sepenuhnya otomatis tanpa memerlukan campur tangan manusia.
Perilaku tak terduga akibat parameter input kosong
  • Operator Google telah mengikuti protokol kontrol internal.
  • Namun, saat menggunakan alat internal untuk melakukan provisioning private cloud pelanggan, satu parameter input dibiarkan kosong.
  • Akibatnya, sistem menetapkan nilai default durasi tetap 1 tahun untuk parameter tersebut, yang saat itu belum diketahui.
  • Setelah durasi 1 tahun yang ditetapkan sistem berakhir, private cloud GCVE pelanggan dihapus.
  • Karena penghapusan terjadi akibat parameter yang dibiarkan kosong saat operator Google menggunakan alat internal, tidak ada notifikasi yang dikirim kepada pelanggan.
  • Jika penghapusan dipicu oleh pelanggan, hal itu hanya akan terjadi setelah notifikasi dikirim kepada pelanggan.

Pemulihan

  • Selama beberapa hari, pelanggan dan tim Google bekerja sama tanpa henti 24 jam untuk memulihkan private cloud GCVE pelanggan, mengembalikan konfigurasi jaringan dan keamanan, memulihkan aplikasi, dan mengembalikan data hingga operasi kembali sepenuhnya.
  • Hal ini dimungkinkan berkat pendekatan arsitektur pelanggan yang kuat dan tangguh.
  • Backup data yang tersimpan di Google Cloud Storage pada region yang sama tidak terdampak oleh penghapusan, dan bersama perangkat lunak backup pihak ketiga berperan penting dalam pemulihan yang cepat.

Tindakan perbaikan

  • Google Cloud telah mengambil beberapa langkah agar insiden ini tidak terjadi lagi:
    1. Menghentikan alat internal yang memicu insiden ini. Bagian ini kini sepenuhnya otomatis dan dapat dikendalikan pelanggan melalui antarmuka pengguna.
    2. Membersihkan database sistem dan meninjau secara manual seluruh private cloud GCVE untuk memastikan tidak ada deployment GCVE lain yang berisiko.
    3. Memperbaiki perilaku sistem dalam workflow deployment ini yang dapat menyetel private cloud GCVE untuk dihapus.

Kesimpulan

  • Ini adalah pertama kalinya insiden dengan sifat seperti ini terjadi di Google Cloud. Ini bukan masalah yang bersifat sistemik.
  • Layanan Google Cloud memiliki perlindungan yang kuat seperti soft delete, notifikasi sebelumnya, dan campur tangan manusia.
  • Dipastikan bahwa perlindungan ini tetap berlaku.
  • Bekerja sama erat dengan pelanggan sangat penting untuk pemulihan yang cepat. CIO dan tim teknis pelanggan patut diapresiasi karena telah bekerja sangat dekat dengan tim Google Cloud untuk melakukan pemulihan 24 jam dengan cepat dan akurat.
  • Manajemen risiko yang kuat dan tangguh sangat penting untuk pemulihan cepat saat terjadi insiden tak terduga.
  • Google Cloud tetap memiliki infrastruktur cloud yang paling tangguh dan andal di dunia. Terlepas dari insiden satu kali ini, uptime dan ketangguhan kami telah diverifikasi secara independen.

Opini GN⁺

  • Pentingnya insiden ini: Insiden ini menunjukkan betapa pentingnya penyedia layanan cloud menangani masalah dengan cepat dan bekerja sama dengan pelanggan.
  • Kebutuhan akan otomatisasi: Ini menekankan betapa pentingnya otomatisasi alat internal, terutama ketika kesalahan manusia dapat berdampak besar pada sistem.
  • Kolaborasi dengan pelanggan: Ini menunjukkan betapa pentingnya kerja sama yang erat dengan pelanggan dalam menyelesaikan masalah. Hal ini juga menjadi elemen penting dalam membangun kepercayaan.
  • Pentingnya backup data: Ini menegaskan betapa pentingnya backup data, terutama agar pemulihan cepat dapat dilakukan saat terjadi insiden tak terduga.
  • Langkah pencegahan ke depan: Langkah-langkah yang diambil Google Cloud untuk mencegah terulangnya insiden ini dapat menjadi contoh yang baik bagi penyedia layanan cloud lainnya.

1 komentar

 
GN⁺ 2024-05-26
Komentar Hacker News

Ringkasan kumpulan komentar Hacker News

  • Keluhan tentang kedalaman penyelesaian masalah

    • Dibandingkan dampak insiden tersebut, solusi yang diberikan dinilai kurang mendalam. Masalah yang sama memang telah dicegah agar tidak terulang, tetapi kemungkinan masalah serupa masih tetap ada. Diperlukan langkah tambahan untuk mencegah penghentian/penghapusan layanan secara sistematis.
  • Pertanyaan tentang langkah perlindungan pelanggan GCP

    • Pelanggan GCP disarankan untuk menanyakan kepada TAM mengenai langkah perlindungan GCP. Langkah perlindungan berbasis manusia di GCP hampir tidak ada, dan jauh lebih sedikit dibanding AWS.
  • Keraguan tentang kerja 24x7

    • Ungkapan "tim Google bekerja 24x7 selama beberapa hari" dipertanyakan.
  • Insiden terkait

    • Disebutkan insiden ketika anggota UniSuper tidak dapat mengakses akun mereka selama seminggu akibat salah konfigurasi di Google Cloud, serta insiden ketika Google Cloud tidak sengaja menghapus akun pelanggan.
  • Kejutan atas kesalahan dari pihak Google

    • Diungkapkan rasa terkejut bahwa ini merupakan kesalahan dari pihak Google. Disebutkan bahwa UniSuper pasti sangat terpukul.
  • Ketelitian peninjauan

    • Dinilai sebagai peninjauan yang menyeluruh karena tidak hanya menyelidiki alat/proses tertentu, tetapi juga meninjau masalah penghapusan otomatis dan memastikan perilaku soft delete. Namun, disebutkan bahwa masih diperlukan peninjauan tambahan terhadap perilaku default.
  • Harapan terhadap GCP

    • Masalah UniSuper memang sudah diselesaikan, tetapi diharapkan insiden ini menjadi dorongan yang diperlukan bagi GCP.
  • Pujian atas upaya pelanggan

    • CIO pelanggan dan tim teknisnya dipuji karena bekerja sama dengan tim Google Cloud untuk melakukan pemulihan 24x7 dengan cepat dan akurat.
  • Pengalaman pelanggan UniSuper

    • Disebutkan bahwa pelanggan UniSuper mengetahui kenyataan insiden ini dari berita, dan ada upaya untuk mengecilkannya sebagai "downtime sistem".
  • Kesalahpahaman pada pengumuman awal

    • Dijelaskan bahwa pengumuman awal menimbulkan kesalahpahaman, dan sebenarnya hanya mesin virtual di wilayah tertentu yang hilang. Hal ini disebut sebagai masalah yang seharusnya dapat ditangani sistem.