6 poin oleh GN⁺ 2025-03-18 | 1 komentar | Bagikan ke WhatsApp
  • Ringkasan presentasi oleh David Rosenthal, seorang pakar Digital Preservation

Perbedaan antara backup dan arsip

  • Backup diperlukan untuk memulihkan ke kondisi terbaru saat terjadi bencana
    • Masa berlaku data backup ditentukan oleh waktu dari backup terakhir hingga pemulihan
    • Umur media penyimpanan data backup tidak penting
  • Setelah hampir 20 tahun bekerja di bidang pelestarian digital, berikut 4 metode backup sistem penting saya
    • Mail dan web server: melakukan backup penuh mingguan dan backup inkremental harian ke Raspberry Pi → menyimpan backup mingguan ke DVD-R
    • Desktop PC: melakukan backup penuh setiap malam ke hard drive eksternal → disimpan bergiliran secara berkala ke 3 hard drive
    • iPhone: backup harian ke Mac Air → backup berkala ke SSD melalui Time Machine
    • Penyimpanan offsite: setiap minggu menyimpan DVD-R, SSD, dan hard drive di lokasi eksternal
  • Apa itu data arsip?
    • Seiring waktu, data turun ke bawah dalam hierarki penyimpanan
    • Data arsip = data yang biaya pemeliharaannya tidak bisa lagi ditanggung di penyimpanan operasional
    • Tujuan utama sistem penyimpanan arsip adalah pengurangan biaya, dengan menerima konsekuensi keterlambatan akses

Realitas media penyimpanan arsip

  • Di media banyak klaim berlebihan tentang 'penyimpanan yang bisa bertahan selamanya'
  • Kecil kemungkinan teknologi penyimpanan baru dari penelitian akan digunakan secara luas di pasar
  • Media khusus arsip sulit sukses secara komersial karena permintaan pasar rendah
    • Contoh: LTO tape menyumbang kurang dari 1% dari seluruh pasar media penyimpanan
    • Pada 2023, OD-3 (optical disc 1TB) dibatalkan karena kekurangan pasar

Masalah waktu adopsi media penyimpanan

  • Dibutuhkan waktu lama sampai teknologi penyimpanan baru diadopsi ke pasar
  • HAMR hard drive: diperkenalkan 26 tahun setelah penelitian dimulai
  • Silica dan DNA storage: sudah diteliti selama puluhan tahun, tetapi masih butuh setidaknya 5 tahun lagi untuk komersialisasi

Masalah ekonomi media penyimpanan

  • Yang jauh lebih penting daripada media penyimpanannya sendiri adalah biaya infrastruktur sistem penyimpanan
    • Biaya media seperti tape dan disk hanya porsi kecil dari total biaya
    • Biaya bisa ditekan hanya jika dioperasikan pada skala data center
    • Penyimpanan arsip tidak ekonomis bila dioperasikan dalam skala kecil

Penyimpanan cloud dan masalah lock-in

  • Biaya penyimpanan arsip pada layanan cloud sangat mahal dalam jangka panjang
  • Amazon Glacier: bisa menghemat biaya untuk penyimpanan jangka panjang, tetapi biaya pemulihan data tinggi
    • Biaya penyimpanan: $10,900/tahun
    • Biaya pemulihan: $49,550 (berdasarkan 1PB)
    • Total biaya: $60,950
    • Periode lock-in: 50.0 bulan
  • Google Archive: biaya penyimpanan dan pemulihan tinggi → tidak efisien untuk penyimpanan jangka panjang
    • Biaya penyimpanan: $13,200/tahun
    • Biaya pemulihan: $210,810 (berdasarkan 1PB)
    • Total biaya: $224,510
    • Periode lock-in: 175.6 bulan
  • Microsoft Archive: biaya penyimpanan rendah, tetapi biaya pemulihan data tinggi
    • Biaya penyimpanan: $22,000/tahun
    • Biaya pemulihan: $40,100 (berdasarkan 1PB)
    • Total biaya: $62,200
    • Periode lock-in: 20.0 bulan
  • Masalah lock-in: biaya pemulihan data yang tinggi membuat perpindahan data menjadi sulit
  • Amazon Glacier memiliki biaya penyimpanan paling murah dan biaya pemulihan yang relatif rendah

Project Silica (proyek silica Microsoft)

  • Silica: media penyimpanan data berkapasitas sangat tinggi
    • Menyimpan data pada platter silica dengan laser femtosecond
    • Kepadatan penyimpanan tinggi dan stabilitas fisik sangat baik
  • Masalah biaya: laser femtosecond mahal → diharapkan harga turun lewat produksi massal
  • Pemisahan baca/tulis → memperkuat keamanan dan menjamin integritas data
  • Masalah kecepatan baca: waktu respons diperkirakan 15 jam → efisien hanya pada sistem berskala besar

Masalah pemulihan data

  • Hal terpenting dalam arsip adalah kemungkinan pemulihan data
  • Microsoft menyimpan kode open source berbasis film di pulau Svalbard
    • Kemungkinan pemulihan setelah bencana rendah
    • Sulit diakses karena jarak yang jauh dan cuaca buruk

Sistem LOCKSS (Lots Of Copies Keep Stuff Safe)

  • Menyimpan banyak salinan pada media penyimpanan berbiaya rendah → meningkatkan keamanan data
  • Backup dan pemulihan dijamin lewat banyak replika, bukan melalui sistem mahal
  • Efisiensi biaya itu penting → lebih memilih sistem penyimpanan murah daripada media penyimpanan mahal

Kesimpulan

  • Inti dari penyimpanan arsip bukanlah teknologi, melainkan ekonomi
    • Media khusus arsip tidak efisien secara ekonomi
    • Layanan cloud memiliki biaya pemulihan tinggi → menimbulkan masalah lock-in
  • Pengoperasian di data center skala besar diperlukan agar biaya penyimpanan jangka panjang bisa ditekan
  • Project Silica dinilai sebagai teknologi penyimpanan arsip yang paling menjanjikan, tetapi masih membutuhkan waktu hingga komersialisasi

1 komentar

 
GN⁺ 2025-03-18
Opini Hacker News
  • Ada AI, komputasi kuantum, layar 6K, M2 NVME, miliaran perangkat jaringan, tetapi data biasa mungkin hanya bertahan sekitar 5 tahun karena kegagalan disk, ketidakstabilan SSD, pembusukan bit, dan sebagainya
    • Untuk mengatasinya, perlu terus memelihara JBOD, RAID, NAS, atau membakarnya ke M-Disc Blu-ray, menitipkannya ke cloud, atau melakukan keduanya
    • Strategi backup 3-2-1 yang sederhana mungkin berhasil jika beruntung, tetapi pengarsipan data berskala besar tetap sulit
  • Sudah lama memikirkan masalah "ratusan tahun", dan metode yang tampaknya benar-benar akan bekerja adalah sebagai berikut
    • Mengukir atau mencetaknya ke bahan fisik (prasasti batu, silinder Edison, piringan shellac 78 rpm, vinil, Voyager Golden Record, dll.)
    • Mencetak atau melubanginya di kertas dengan tinta (buku, kartu, pita)
    • Fotografi; microfiche/microfilm (GitHub Arctic Code Vault), litografi
  • Baru-baru ini meneliti cara "mencetak" microfilm kelas arsip, dan ada beberapa opsi, tetapi kebanyakan berfokus pada memindai microfilm untuk membuat salinan digital
    • Dari pengalaman pribadi, gambar pensil yang dibuat saat kelas 2 kemungkinan besar akan bertahan beberapa ratus tahun lebih lama daripada materi digital
  • Pada skala perusahaan, perhitungan biaya bisa berbeda dari skala pribadi
    • Linear Tape-Open adalah media penyimpanan yang murah jika harus menyimpan petabyte data
    • Biaya drivernya setara dengan membeli hard drive 400TB
    • Saya pikir hard drive produksi massal lebih andal daripada pita LTO
    • Secara pribadi, pengalaman saya dengan pita kurang baik
  • Catatan "melakukan survei geologi di kepulauan Svalbard pada musim panas 1969" membuat saya ingin tahu lebih banyak tentang penulisnya, dan karier mereka sangat menarik
  • Saat menggunakan cloud storage untuk backup, jangan lupa mengaktifkan Object Lock
    • Memang tidak sebagus penyimpanan offline, tetapi jauh lebih baik daripada media R/W
    • Di perusahaan, kami menggunakan restic untuk backup ke B2, dan menjalankan backup deduplikasi setiap kali
  • Menggunakan strategi backup 3-2-1
    • Menyimpan tiga salinan data di dua jenis media yang berbeda, dan satu salinan disimpan di luar lokasi
    • Data penting dicerminkan ke SSD, dan beberapa salinan Blu-ray disimpan
    • Alasan menggunakan Blu-ray adalah untuk perlindungan dari badai geomagnetik seperti Carrington Event 1859
  • Andai arsip pita lebih mudah diakses
    • Karena ini pasar niche dan terutama untuk perusahaan, harga drive mulai dari ribuan dolar, dan jika kapasitasnya diturunkan, malah lebih kecil dari SSD modern
  • Artikel ini membahas berbagai topik, jadi sulit menarik satu kesimpulan tunggal
    • Ditutup dengan kutipan CTO Backblaze: "bersiaplah untuk kegagalan dan belilah komponen termurah"
    • Cocok untuk perusahaan besar, tetapi tidak cocok untuk individu atau usaha kecil
    • Secara pribadi, saya melakukan backup ke hard drive eksternal murah dan menyimpan arsip di M-DISC Blu-ray
  • Menyimpan file sejak 1991, dan telah memindahkannya ke berbagai format
    • Menggunakan strategi backup 3-2-1, dan memverifikasi semua file dengan checksum dua kali setahun
    • Dengan menggunakan skrip, ini bisa ditangani dengan sederhana lewat beberapa perintah mingguan
  • Ingin mendengar pendapat tentang LOCKSS
    • LOCKSS tampaknya benar-benar menganggap serius gagasan bahwa jika data belum diverifikasi baru-baru ini, maka data itu pada dasarnya tidak benar-benar ada