1 poin oleh GN⁺ 2023-07-28 | 1 komentar | Bagikan ke WhatsApp
  • Layanan menjadi offline akibat gangguan Tarsnap.
  • Gangguan terjadi karena kegagalan pemeriksaan kesehatan sistem pada server Tarsnap pusat yang dihosting di region Amazon EC2 us-east-1.
  • Penyebab pasti kerusakan tidak diketahui, tetapi diduga merupakan kegagalan perangkat keras yang terisolasi.
  • Sistem pemantauan Tarsnap mendeteksi kerusakan dan mengirim notifikasi kepada operator.
  • Instance EC2 pengganti dibuat, tetapi untuk mencegah kehilangan data, kode server Tarsnap tidak otomatis dijalankan ulang.
  • Setelah server di-boot ulang, log menunjukkan kerusakan sistem berkas sehingga diputuskan untuk menyiapkan server baru alih-alih memulihkan server sebelumnya.
  • Proses pemulihan mencakup pembacaan header metadata dari Amazon S3 dan menjalankan ulang pekerjaan tersebut secara lokal.
  • Dalam proses pemulihan, terjadi kesalahan yang berkaitan dengan entri log pendaftaran mesin dan urutan entri log yang belum diinisialisasi.
  • Proses pemulihan berjalan lebih lambat dari perkiraan dan seharusnya bisa dioptimalkan untuk performa yang lebih cepat.
  • Proses pemulihan status selesai pada 3 Juli dan server kembali online.
  • Lalu lintas kembali dimulai sekitar 26 jam 16 menit setelah gangguan dimulai.
  • Sebagai kompensasi atas gangguan, Tarsnap memberikan 50% dari biaya penyimpanan satu bulan ke akun pengguna.
  • Pengguna disarankan menghubungi pendiri Tarsnap, Colin Percival, untuk pertanyaan atau kekhawatiran.

1 komentar

 
GN⁺ 2023-07-28
Komentar Hacker News
  • Editor artikel ini memberikan kredit sebesar 50% dari biaya penyimpanan satu bulan ke akun Tarsnap semua orang setelah insiden.
  • Editor ini dipuji karena pendekatannya yang murah hati dan berpusat pada pelanggan dalam menangani situasi tersebut.
  • Editor ini mengungkapkan keterkejutannya atas popularitas artikel tersebut dan menyebutkan bahwa ia terbatas dalam menjawab pertanyaan karena alasan pribadi.
  • Seorang komentator menyarankan bahwa menukar waktu gangguan tambahan dengan waktu istirahat dapat membantu penyelesaian masalah.
  • Menguji proses pemulihan secara rutin membantu mengidentifikasi dan menyelesaikan bug atau masalah.
  • Postmortem ini diapresiasi atas profesionalisme, kesopanan, dan kejujurannya.
  • Para komentator merekomendasikan untuk menetapkan dan menguji langkah-langkah pemulihan gangguan guna meminimalkan downtime di masa depan.
  • Dalam insiden serupa, ada usulan untuk mempekerjakan pekerja paruh waktu guna meningkatkan ketahanan bisnis.
  • Bagi calon pengguna, disebutkan adanya risiko ketergantungan pada satu orang, dalam hal ini Colin Percival.
  • Kesalahan kode dari tahun 2014 diidentifikasi sebagai penyebab insiden, dan disarankan menggunakan pemodelan TLA+ untuk menangkap masalah seperti ini.
  • Halaman infrastruktur di situs web Tarsnap perlu diperbarui agar mencerminkan insiden tersebut.
  • Muncul pertanyaan apakah perangkat lunak enkripsi Tarsnap bisa diintegrasikan dengan Dropbox untuk penyimpanan data yang aman.