- Anna’s Archive mencadangkan seluruh metadata dan file musik Spotify lalu merilisnya sebagai arsip torrent sekitar 300TB
- Mencakup sekitar 256 juta metadata lagu dan 86 juta file musik, yang merepresentasikan 99,6% dari total pemutaran
- Lagu populer disimpan dalam kualitas asli OGG Vorbis 160kbit/s, sementara lagu yang tidak populer disimpan sebagai OGG Opus 75kbit/s untuk preservasi yang efisien
- Data disediakan dalam bentuk database SQLite dan mencakup struktur detail seperti playlist, fitur audio, dan album art
- Arsip preservasi musik terbuka penuh pertama di dunia untuk melestarikan warisan musik umat manusia secara permanen dari bencana alam, perang, pemotongan anggaran, dan lainnya
Gambaran proyek
- Anna’s Archive melakukan backup dengan scraping skala besar atas seluruh metadata dan file musik Spotify
- Total ukuran sekitar 300TB, didistribusikan dalam bentuk torrent yang dikelompokkan berdasarkan popularitas
- Mencakup 256 juta track dan 186 juta kode ISRC unik
- Arsip ini merupakan repositori preservasi musik terbuka penuh yang bisa di-mirror oleh siapa pun, dan mencakup 86 juta file musik
- Ini mewakili sekitar 99,6% dari seluruh pemutaran di Spotify
- Anna’s Archive sebelumnya berfokus pada preservasi berbasis teks (buku, makalah, dan sebagainya), tetapi kali ini meluas ke media nonteks berupa musik
- Setelah menemukan metode scraping terstruktur untuk Spotify, mereka mendorong pembangunan arsip yang berfokus pada preservasi musik
Keterbatasan preservasi musik yang ada
- Upaya preservasi musik sebelumnya memiliki tiga masalah utama
- Musik nonarus utama terpinggirkan akibat bias terhadap artis populer
- Obsesi pada kualitas lossless menyebabkan penggunaan kapasitas penyimpanan yang tidak efisien
- Tidak adanya daftar torrent yang mewakili seluruh musik
- Backup Spotify kali ini melengkapi kekurangan tersebut dengan membangun arsip musik yang berfokus pada preservasi
Komposisi data dan statistik
- Berhasil memperoleh metadata untuk 99,9% dari sekitar 256 juta track di Spotify
- Prioritas ditentukan berdasarkan indikator popularitas (popularity)
- Track dengan
popularity>0 disimpan dalam kualitas asli OGG Vorbis 160kbit/s
- Track dengan
popularity=0 di-encode ulang menjadi OGG Opus 75kbit/s
- Mencakup sebagian besar lagu yang dirilis sebelum Juli 2025
- Total streaming tiga lagu teratas (Lady Gaga, Billie Eilish, Bad Bunny) lebih besar daripada gabungan 20 juta hingga 100 juta lagu terbawah
- Lebih dari 70% dari seluruh lagu adalah lagu tidak populer dengan jumlah pemutaran kurang dari 1.000 kali
Struktur distribusi torrent
- Data terdiri dari dua bagian: metadata dan file musik
- Metadata: disediakan sebagai SQLite DB, sekitar 200GB (terkompresi)
- Data analisis audio: 4TB (terkompresi)
- File musik didistribusikan dalam format Anna’s Archive Containers (AAC)
- Setelah menghapus paket OGG yang keliru dari Spotify, metadata seperti judul, ISRC, album art, dan informasi replaygain disisipkan
- Terdapat kesalahan tag
REPLAYGAIN_ALBUM_PEAK pada sebagian file
Eksplorasi dan analisis data
- Distribusi popularitas: sebagian besar pemutaran terjadi pada lagu di rentang
popularity 50~80
- Durasi track: puncak muncul pada kisaran 2 menit, 3 menit, dan 4 menit
- Termasuk statistik konten Explicit dan lagu dengan ISRC duplikat
- Distribusi genre artis: tersedia visualisasi berdasarkan genre rinci maupun genre yang dikelompokkan
- Analisis tahun rilis album: lonjakan tajam musik hasil generasi otomatis dan AI belakangan ini
- Analisis fitur audio: BPM rata-rata sekitar 120, dengan konfirmasi korelasi antara loudness dan energy
Struktur detail metadata
- Susunan file SQLite utama
spotify_clean.sqlite3: replikasi API artis, album, dan track yang nyaris lengkap
spotify_clean_audio_features.sqlite3: menyimpan fitur audio per track seperti BPM, key, energy, valence, dan lainnya
spotify_clean_playlists.sqlite3: mencakup 6,6 juta playlist dan 1,7 miliar entri track
spotify_clean_track_files.sqlite3: pemetaan antara track dan file aktual, termasuk status file, hash SHA256, dan informasi licensor
- File JSONL tambahan mencakup data audiobook, podcast, show, dan episode
spotify_2025_07_coverart.tar.torrent menyimpan file gambar album art
Partisipasi dan permintaan preservasi
- Anna’s Archive meminta donasi dan partisipasi seeding torrent
- Bahkan seeding skala kecil pun dapat berkontribusi pada preservasi keseluruhan
- Tujuannya adalah melestarikan warisan musik umat manusia secara permanen dari bencana alam, perang, pemotongan anggaran, dan sebagainya
Fitur tambahan dan eksperimen
- Dimungkinkan untuk mengimplementasikan fitur ‘True Shuffle’ untuk seluruh track Spotify
- Melalui query SQLite, dapat dibuat playlist acak yang benar-benar acak
- Jika minat ke depan cukup besar, disebutkan kemungkinan penambahan fitur unduhan file individual
Ringkasan
- Anna’s Archive mencadangkan hampir seluruh data Spotify dan membangun database metadata musik terbuka terbesar di dunia
- Sebagai arsip preservasi terbuka penuh, siapa pun dapat melakukan mirror
- Proyek ini memiliki transparansi struktur data, presisi teknis, dan daya tahan preservasi jangka panjang
- Melampaui ketergantungan industri musik pada platform komersial, proyek ini menyiapkan fondasi untuk preservasi permanen catatan budaya
Belum ada komentar.