- Ringkasan presentasi oleh David Rosenthal, seorang pakar Digital Preservation
Perbedaan antara backup dan arsip
- Backup diperlukan untuk memulihkan ke kondisi terbaru saat terjadi bencana
- Masa berlaku data backup ditentukan oleh waktu dari backup terakhir hingga pemulihan
- Umur media penyimpanan data backup tidak penting
- Setelah hampir 20 tahun bekerja di bidang pelestarian digital, berikut 4 metode backup sistem penting saya
- Mail dan web server: melakukan backup penuh mingguan dan backup inkremental harian ke Raspberry Pi → menyimpan backup mingguan ke DVD-R
- Desktop PC: melakukan backup penuh setiap malam ke hard drive eksternal → disimpan bergiliran secara berkala ke 3 hard drive
- iPhone: backup harian ke Mac Air → backup berkala ke SSD melalui Time Machine
- Penyimpanan offsite: setiap minggu menyimpan DVD-R, SSD, dan hard drive di lokasi eksternal
- Apa itu data arsip?
- Seiring waktu, data turun ke bawah dalam hierarki penyimpanan
- Data arsip = data yang biaya pemeliharaannya tidak bisa lagi ditanggung di penyimpanan operasional
- Tujuan utama sistem penyimpanan arsip adalah pengurangan biaya, dengan menerima konsekuensi keterlambatan akses
Realitas media penyimpanan arsip
- Di media banyak klaim berlebihan tentang 'penyimpanan yang bisa bertahan selamanya'
- Kecil kemungkinan teknologi penyimpanan baru dari penelitian akan digunakan secara luas di pasar
- Media khusus arsip sulit sukses secara komersial karena permintaan pasar rendah
- Contoh: LTO tape menyumbang kurang dari 1% dari seluruh pasar media penyimpanan
- Pada 2023, OD-3 (optical disc 1TB) dibatalkan karena kekurangan pasar
Masalah waktu adopsi media penyimpanan
- Dibutuhkan waktu lama sampai teknologi penyimpanan baru diadopsi ke pasar
- HAMR hard drive: diperkenalkan 26 tahun setelah penelitian dimulai
- Silica dan DNA storage: sudah diteliti selama puluhan tahun, tetapi masih butuh setidaknya 5 tahun lagi untuk komersialisasi
Masalah ekonomi media penyimpanan
- Yang jauh lebih penting daripada media penyimpanannya sendiri adalah biaya infrastruktur sistem penyimpanan
- Biaya media seperti tape dan disk hanya porsi kecil dari total biaya
- Biaya bisa ditekan hanya jika dioperasikan pada skala data center
- Penyimpanan arsip tidak ekonomis bila dioperasikan dalam skala kecil
Penyimpanan cloud dan masalah lock-in
- Biaya penyimpanan arsip pada layanan cloud sangat mahal dalam jangka panjang
- Amazon Glacier: bisa menghemat biaya untuk penyimpanan jangka panjang, tetapi biaya pemulihan data tinggi
- Biaya penyimpanan: $10,900/tahun
- Biaya pemulihan: $49,550 (berdasarkan 1PB)
- Total biaya: $60,950
- Periode lock-in: 50.0 bulan
- Google Archive: biaya penyimpanan dan pemulihan tinggi → tidak efisien untuk penyimpanan jangka panjang
- Biaya penyimpanan: $13,200/tahun
- Biaya pemulihan: $210,810 (berdasarkan 1PB)
- Total biaya: $224,510
- Periode lock-in: 175.6 bulan
- Microsoft Archive: biaya penyimpanan rendah, tetapi biaya pemulihan data tinggi
- Biaya penyimpanan: $22,000/tahun
- Biaya pemulihan: $40,100 (berdasarkan 1PB)
- Total biaya: $62,200
- Periode lock-in: 20.0 bulan
- Masalah lock-in: biaya pemulihan data yang tinggi membuat perpindahan data menjadi sulit
- Amazon Glacier memiliki biaya penyimpanan paling murah dan biaya pemulihan yang relatif rendah
Project Silica (proyek silica Microsoft)
- Silica: media penyimpanan data berkapasitas sangat tinggi
- Menyimpan data pada platter silica dengan laser femtosecond
- Kepadatan penyimpanan tinggi dan stabilitas fisik sangat baik
- Masalah biaya: laser femtosecond mahal → diharapkan harga turun lewat produksi massal
- Pemisahan baca/tulis → memperkuat keamanan dan menjamin integritas data
- Masalah kecepatan baca: waktu respons diperkirakan 15 jam → efisien hanya pada sistem berskala besar
Masalah pemulihan data
- Hal terpenting dalam arsip adalah kemungkinan pemulihan data
- Microsoft menyimpan kode open source berbasis film di pulau Svalbard
- Kemungkinan pemulihan setelah bencana rendah
- Sulit diakses karena jarak yang jauh dan cuaca buruk
Sistem LOCKSS (Lots Of Copies Keep Stuff Safe)
- Menyimpan banyak salinan pada media penyimpanan berbiaya rendah → meningkatkan keamanan data
- Backup dan pemulihan dijamin lewat banyak replika, bukan melalui sistem mahal
- Efisiensi biaya itu penting → lebih memilih sistem penyimpanan murah daripada media penyimpanan mahal
Kesimpulan
- Inti dari penyimpanan arsip bukanlah teknologi, melainkan ekonomi
- Media khusus arsip tidak efisien secara ekonomi
- Layanan cloud memiliki biaya pemulihan tinggi → menimbulkan masalah lock-in
- Pengoperasian di data center skala besar diperlukan agar biaya penyimpanan jangka panjang bisa ditekan
- Project Silica dinilai sebagai teknologi penyimpanan arsip yang paling menjanjikan, tetapi masih membutuhkan waktu hingga komersialisasi
1 komentar
Opini Hacker News