Status insiden GCP
(blog.railway.app)Masalah dan penanganan Google Cloud Platform
- Railway menjalankan platform pengembangan aplikasinya menggunakan Compute Engine milik Google Cloud Platform (GCP).
- Beberapa mesin tertentu menjadi tidak responsif sehingga terjadi gangguan layanan, dan kondisi ini berlangsung sekitar 10 menit.
- Masalah telah diatasi, seluruh beban kerja berhasil dipindahkan, dan layanan telah pulih.
Hubungan yang sulit dengan Google Cloud
- Railway telah mengalami berbagai masalah dengan Google Cloud selama 18 bulan terakhir.
- Ketika masalah jaringan terus berlanjut, mereka membangun stack jaringan sendiri untuk mengatasinya.
- Saat Google membatasi kuota registry, mereka menyelesaikannya dengan membuat produk registry sendiri.
- Karena kecewa dengan layanan dukungan Google, mereka berdiskusi dengan para wakil presiden Google untuk menyelesaikan masalah tersebut.
- Google mengubah ketentuan layanan sehingga biaya meningkat 20%, dan mereka masih menunggu solusi untuk hal ini.
- Railway berencana menghentikan penggunaan layanan Google Cloud dan berpindah ke instance bare metal milik sendiri.
Tinjauan insiden
- Google me-restart mesin sehingga server menjadi offline.
- Meskipun ada sistem failover otomatis, beberapa server tidak berhasil pulih sehingga failover dilakukan secara manual.
- Railway menduga masalah ini disebabkan oleh live migration otomatis di Google Cloud, dan telah mencoba menghubungi Google tetapi tidak mendapat respons.
- Berdasarkan hasil analisis log serial console, diduga pada guest GCP dalam kasus langka dapat terjadi soft lock di bawah tekanan sumber daya saat memindahkan memori dari user space ke kernel.
Kesimpulan bagi pengguna
- Selama failover manual, terjadi downtime sekitar 10 menit per host.
- Bagi pengguna yang menjalankan workload multi-layanan, downtime bisa lebih lama.
- Railway meminta maaf atas ketidaknyamanan yang dialami pengguna, dan berencana bermigrasi ke bare metal sendiri untuk memberikan keandalan yang lebih tinggi.
Opini GN⁺
Hal terpenting dalam artikel ini adalah dampak masalah teknis Google Cloud Platform dan kelemahan dukungan pelanggan terhadap pengguna. Masalah yang dialami Railway menekankan pentingnya keandalan dan dukungan dari penyedia layanan cloud, sekaligus menunjukkan pentingnya membangun infrastruktur sendiri untuk mengatasi masalah semacam ini. Tulisan ini membantu memahami kompleksitas dan potensi risiko cloud computing, serta menarik dan bermanfaat karena memberikan wawasan tentang masalah teknis dan langkah penanganannya.
1 komentar
Komentar Hacker News
Pengalaman perusahaan perangkat lunak kecil
Pendapat tentang perubahan di GCP
Perbandingan keandalan GCP dan AWS
Pendapat tentang masalah pada penyedia cloud
Pengalaman dengan layanan dukungan Google Cloud
Pengalaman dengan masalah fitur GCP
Pengalaman dengan ambang batas yang tidak terdokumentasi di GCP
Solusi untuk masalah jaringan Google Cloud
Pendapat tentang keandalan Google Cloud
Kebingungan pribadi tentang masalah di GCP