- Layanan menjadi offline akibat gangguan Tarsnap.
- Gangguan terjadi karena kegagalan pemeriksaan kesehatan sistem pada server Tarsnap pusat yang dihosting di region Amazon EC2 us-east-1.
- Penyebab pasti kerusakan tidak diketahui, tetapi diduga merupakan kegagalan perangkat keras yang terisolasi.
- Sistem pemantauan Tarsnap mendeteksi kerusakan dan mengirim notifikasi kepada operator.
- Instance EC2 pengganti dibuat, tetapi untuk mencegah kehilangan data, kode server Tarsnap tidak otomatis dijalankan ulang.
- Setelah server di-boot ulang, log menunjukkan kerusakan sistem berkas sehingga diputuskan untuk menyiapkan server baru alih-alih memulihkan server sebelumnya.
- Proses pemulihan mencakup pembacaan header metadata dari Amazon S3 dan menjalankan ulang pekerjaan tersebut secara lokal.
- Dalam proses pemulihan, terjadi kesalahan yang berkaitan dengan entri log pendaftaran mesin dan urutan entri log yang belum diinisialisasi.
- Proses pemulihan berjalan lebih lambat dari perkiraan dan seharusnya bisa dioptimalkan untuk performa yang lebih cepat.
- Proses pemulihan status selesai pada 3 Juli dan server kembali online.
- Lalu lintas kembali dimulai sekitar 26 jam 16 menit setelah gangguan dimulai.
- Sebagai kompensasi atas gangguan, Tarsnap memberikan 50% dari biaya penyimpanan satu bulan ke akun pengguna.
- Pengguna disarankan menghubungi pendiri Tarsnap, Colin Percival, untuk pertanyaan atau kekhawatiran.
1 komentar
Komentar Hacker News