1 poin oleh GN⁺ 2023-12-04 | 1 komentar | Bagikan ke WhatsApp

Masalah dan penanganan Google Cloud Platform

  • Railway menjalankan platform pengembangan aplikasinya menggunakan Compute Engine milik Google Cloud Platform (GCP).
  • Beberapa mesin tertentu menjadi tidak responsif sehingga terjadi gangguan layanan, dan kondisi ini berlangsung sekitar 10 menit.
  • Masalah telah diatasi, seluruh beban kerja berhasil dipindahkan, dan layanan telah pulih.

Hubungan yang sulit dengan Google Cloud

  • Railway telah mengalami berbagai masalah dengan Google Cloud selama 18 bulan terakhir.
  • Ketika masalah jaringan terus berlanjut, mereka membangun stack jaringan sendiri untuk mengatasinya.
  • Saat Google membatasi kuota registry, mereka menyelesaikannya dengan membuat produk registry sendiri.
  • Karena kecewa dengan layanan dukungan Google, mereka berdiskusi dengan para wakil presiden Google untuk menyelesaikan masalah tersebut.
  • Google mengubah ketentuan layanan sehingga biaya meningkat 20%, dan mereka masih menunggu solusi untuk hal ini.
  • Railway berencana menghentikan penggunaan layanan Google Cloud dan berpindah ke instance bare metal milik sendiri.

Tinjauan insiden

  • Google me-restart mesin sehingga server menjadi offline.
  • Meskipun ada sistem failover otomatis, beberapa server tidak berhasil pulih sehingga failover dilakukan secara manual.
  • Railway menduga masalah ini disebabkan oleh live migration otomatis di Google Cloud, dan telah mencoba menghubungi Google tetapi tidak mendapat respons.
  • Berdasarkan hasil analisis log serial console, diduga pada guest GCP dalam kasus langka dapat terjadi soft lock di bawah tekanan sumber daya saat memindahkan memori dari user space ke kernel.

Kesimpulan bagi pengguna

  • Selama failover manual, terjadi downtime sekitar 10 menit per host.
  • Bagi pengguna yang menjalankan workload multi-layanan, downtime bisa lebih lama.
  • Railway meminta maaf atas ketidaknyamanan yang dialami pengguna, dan berencana bermigrasi ke bare metal sendiri untuk memberikan keandalan yang lebih tinggi.

Opini GN⁺

Hal terpenting dalam artikel ini adalah dampak masalah teknis Google Cloud Platform dan kelemahan dukungan pelanggan terhadap pengguna. Masalah yang dialami Railway menekankan pentingnya keandalan dan dukungan dari penyedia layanan cloud, sekaligus menunjukkan pentingnya membangun infrastruktur sendiri untuk mengatasi masalah semacam ini. Tulisan ini membantu memahami kompleksitas dan potensi risiko cloud computing, serta menarik dan bermanfaat karena memberikan wawasan tentang masalah teknis dan langkah penanganannya.

1 komentar

 
GN⁺ 2023-12-04
Komentar Hacker News
  • Pengalaman perusahaan perangkat lunak kecil

    • Sebagai perusahaan perangkat lunak beranggotakan 2 orang, mereka mengalami berbagai masalah dengan Google.
    • Sebagian besar masalah berkaitan dengan Google Adwords.
    • Jika Google tidak memberikan dukungan yang layak kepada penulis asli yang membayar dalam jumlah besar, maka hanya ada sedikit harapan bagi bisnis kecil.
  • Pendapat tentang perubahan di GCP

    • Beberapa tahun lalu, GCP adalah opsi yang lebih baik dari segi harga terhadap performa dibanding AWS.
    • Pada saat itu, dukungan GCP sangat baik, dan pengalaman penanganan tiket awal juga mengesankan.
    • Interaksi dengan tim penjualan juga baik, tetapi sekarang AWS telah menyamai GCP dalam hal biaya terhadap performa, dan lebih unggul dalam layanan terkelola.
    • Pengalaman dukungan GCP memburuk secara signifikan, serta gagal mengenali masalah jaringan.
    • Mereka telah banyak berinvestasi di GCP, tetapi kecewa dengan situasi saat ini dan sedang berusaha mengurangi pengeluaran.
  • Perbandingan keandalan GCP dan AWS

    • Meskipun instance komputasi di GCP jarang mengalami down, GCP tetap mendapat kritik.
    • Di AWS, mereka mengalami instance yang sering terhenti atau menghilang.
    • Berdasarkan pengalaman pribadi dan dokumentasi AWS, mereka menyatakan bahwa komponen dasar AWS kurang andal dibanding GCP.
  • Pendapat tentang masalah pada penyedia cloud

    • Semua penyedia cloud memiliki masalah.
    • Mereka menemukan dan melaporkan berbagai isu di AWS, tetapi tim dukungan justru membuang-buang waktu.
    • Selain layanan inti (EC2, EBS, S3), mereka enggan menggunakannya.
  • Pengalaman dengan layanan dukungan Google Cloud

    • Mereka tidak terkesan dengan layanan dukungan Google Cloud.
    • Di AWS, pengalaman dukungan selalu baik.
    • Jika ada interaksi positif dengan Google Cloud, mereka menyarankan agar itu ditegaskan dan diberi umpan balik positif.
  • Pengalaman dengan masalah fitur GCP

    • Fitur enterprise GCP tidak berfungsi dengan baik, dan saat mencoba memperbaikinya justru menyebabkan downtime.
    • Perwakilan GCP mengingatkan tentang NDA dan berusaha tidak mengakui masalah tersebut.
  • Pengalaman dengan ambang batas yang tidak terdokumentasi di GCP

    • Terkait Cloud Run, mereka mengalami peristiwa scaling yang tidak dapat dijelaskan berdasarkan penggunaan CPU dan permintaan bersamaan.
    • Melalui dukungan premium, mereka mengetahui bahwa ada kriteria tambahan, tetapi tidak mendapat penjelasan rinci.
  • Solusi untuk masalah jaringan Google Cloud

    • Mereka mengalami masalah jaringan yang terus-menerus pada produk Google Cloud.
    • Mereka membangun stack jaringan sendiri untuk menyelesaikan masalah.
    • Mereka mempertanyakan bagaimana overlay UDP/Wireguard bisa lebih andal ketika jaringan dasarnya tidak stabil.
  • Pendapat tentang keandalan Google Cloud

    • Masalah keandalan pada masa awal cloud computing masih bisa dimengerti, tetapi pada 2023 mengecewakan pelanggan besar adalah situasi yang buruk.
    • Mereka bertanya-tanya apakah orang lain juga mengalami hal serupa, atau hanya penulis yang sedang kurang beruntung.
  • Kebingungan pribadi tentang masalah di GCP

    • Mereka bingung apa kaitan virtualisasi bertingkat dengan masalah tersebut.
    • Penyebutan instruksi MMIO tidak mereka pahami.
    • Penulis tampaknya merasa frustrasi dengan insiden terbaru dan berusaha keras mencari solusi.