Debugging Hetzner: memecahkan masalah dengan powerstat, sensors, dan dmidecode
-
Latar belakang
- Ubicloud mengadopsi server AX162 milik Hetzner, tetapi mengalami masalah keandalan yang serius.
- Server AX162 menawarkan performa lebih baik dan harga lebih murah dibanding model sebelumnya, tetapi mengalami crash 16 kali lebih sering.
- Masalah baru terselesaikan setelah beberapa pembaruan perangkat keras.
-
Terjadinya masalah
- Tiga minggu setelah pembelian server AX162 pertama, terjadi crash server.
- Byte NULL ditemukan di log sistem, yang menandakan kegagalan mendadak seperti kehilangan daya.
- Hetzner melakukan pemeriksaan perangkat keras, tetapi tidak menemukan kelainan.
- Frekuensi crash meningkat, dan Hetzner mengganti server setiap kali menemukan cacat perangkat keras.
-
Investigasi awal
- Beban sistem: Awalnya diduga masalah lebih mungkin terjadi saat beban meningkat, tetapi crash juga terjadi saat beban rendah atau tidak ada.
- Suhu: Suhu diukur menggunakan sensor, tetapi suhu pada saat crash tidak lebih tinggi dari rata-rata.
- Komponen cacat: Informasi perangkat keras dikumpulkan dengan perintah
dmidecode, tetapi tidak ada perbedaan besar antara server yang mengalami crash dan yang tidak. - Konsumsi daya: Konsumsi daya diukur dengan alat
powerstat, dan muncul kecurigaan bahwa Hetzner mungkin membatasi penggunaan daya.
-
Pengumpulan dan perbandingan data tingkat crash
- Keandalan perangkat keras diukur menggunakan annual failure rate (AFR).
- Server AX162 mengalami kegagalan 16 kali lebih sering dibanding model lain.
- Setelah crash pertama, 80% server mengalami crash kedua dalam 24 jam.
-
Mengamati stabilitas dengan perangkat keras baru
- Hetzner mengonfirmasi adanya batch motherboard yang cacat dan merekomendasikan penggantian.
- Bahkan setelah diganti dengan motherboard baru, crash tetap terjadi.
- Setelah diganti dengan motherboard terbaru dan dipantau selama beberapa bulan, masalah crash terselesaikan.
-
Perbaikan proses
- Peninjauan yang menyeluruh diperlukan saat mengadopsi model server baru.
- Perangkat keras baru sebaiknya diperkenalkan secara bertahap, dimulai dari pekerjaan nonkritis.
- Menambah lebih banyak penyedia bare metal untuk menyebarkan risiko.
-
Kesimpulan
- Adopsi awal server Hetzner menimbulkan masalah, tetapi persoalan tersebut terselesaikan melalui perbaikan berkelanjutan.
- Ubicloud akan terus berupaya menyediakan solusi cloud yang andal dan adaptif.
1 komentar
Komentar Hacker News