29 poin oleh GN⁺ 2025-12-21 | Belum ada komentar. | Bagikan ke WhatsApp
  • Anna’s Archive mencadangkan seluruh metadata dan file musik Spotify lalu merilisnya sebagai arsip torrent sekitar 300TB
  • Mencakup sekitar 256 juta metadata lagu dan 86 juta file musik, yang merepresentasikan 99,6% dari total pemutaran
  • Lagu populer disimpan dalam kualitas asli OGG Vorbis 160kbit/s, sementara lagu yang tidak populer disimpan sebagai OGG Opus 75kbit/s untuk preservasi yang efisien
  • Data disediakan dalam bentuk database SQLite dan mencakup struktur detail seperti playlist, fitur audio, dan album art
  • Arsip preservasi musik terbuka penuh pertama di dunia untuk melestarikan warisan musik umat manusia secara permanen dari bencana alam, perang, pemotongan anggaran, dan lainnya

Gambaran proyek

  • Anna’s Archive melakukan backup dengan scraping skala besar atas seluruh metadata dan file musik Spotify
    • Total ukuran sekitar 300TB, didistribusikan dalam bentuk torrent yang dikelompokkan berdasarkan popularitas
    • Mencakup 256 juta track dan 186 juta kode ISRC unik
  • Arsip ini merupakan repositori preservasi musik terbuka penuh yang bisa di-mirror oleh siapa pun, dan mencakup 86 juta file musik
    • Ini mewakili sekitar 99,6% dari seluruh pemutaran di Spotify
  • Anna’s Archive sebelumnya berfokus pada preservasi berbasis teks (buku, makalah, dan sebagainya), tetapi kali ini meluas ke media nonteks berupa musik
  • Setelah menemukan metode scraping terstruktur untuk Spotify, mereka mendorong pembangunan arsip yang berfokus pada preservasi musik

Keterbatasan preservasi musik yang ada

  • Upaya preservasi musik sebelumnya memiliki tiga masalah utama
    1. Musik nonarus utama terpinggirkan akibat bias terhadap artis populer
    2. Obsesi pada kualitas lossless menyebabkan penggunaan kapasitas penyimpanan yang tidak efisien
    3. Tidak adanya daftar torrent yang mewakili seluruh musik
  • Backup Spotify kali ini melengkapi kekurangan tersebut dengan membangun arsip musik yang berfokus pada preservasi

Komposisi data dan statistik

  • Berhasil memperoleh metadata untuk 99,9% dari sekitar 256 juta track di Spotify
  • Prioritas ditentukan berdasarkan indikator popularitas (popularity)
    • Track dengan popularity>0 disimpan dalam kualitas asli OGG Vorbis 160kbit/s
    • Track dengan popularity=0 di-encode ulang menjadi OGG Opus 75kbit/s
  • Mencakup sebagian besar lagu yang dirilis sebelum Juli 2025
  • Total streaming tiga lagu teratas (Lady Gaga, Billie Eilish, Bad Bunny) lebih besar daripada gabungan 20 juta hingga 100 juta lagu terbawah
  • Lebih dari 70% dari seluruh lagu adalah lagu tidak populer dengan jumlah pemutaran kurang dari 1.000 kali

Struktur distribusi torrent

  • Data terdiri dari dua bagian: metadata dan file musik
    • Metadata: disediakan sebagai SQLite DB, sekitar 200GB (terkompresi)
    • Data analisis audio: 4TB (terkompresi)
  • File musik didistribusikan dalam format Anna’s Archive Containers (AAC)
    • Setelah menghapus paket OGG yang keliru dari Spotify, metadata seperti judul, ISRC, album art, dan informasi replaygain disisipkan
    • Terdapat kesalahan tag REPLAYGAIN_ALBUM_PEAK pada sebagian file

Eksplorasi dan analisis data

  • Distribusi popularitas: sebagian besar pemutaran terjadi pada lagu di rentang popularity 50~80
  • Durasi track: puncak muncul pada kisaran 2 menit, 3 menit, dan 4 menit
  • Termasuk statistik konten Explicit dan lagu dengan ISRC duplikat
  • Distribusi genre artis: tersedia visualisasi berdasarkan genre rinci maupun genre yang dikelompokkan
  • Analisis tahun rilis album: lonjakan tajam musik hasil generasi otomatis dan AI belakangan ini
  • Analisis fitur audio: BPM rata-rata sekitar 120, dengan konfirmasi korelasi antara loudness dan energy

Struktur detail metadata

  • Susunan file SQLite utama
    • spotify_clean.sqlite3: replikasi API artis, album, dan track yang nyaris lengkap
    • spotify_clean_audio_features.sqlite3: menyimpan fitur audio per track seperti BPM, key, energy, valence, dan lainnya
    • spotify_clean_playlists.sqlite3: mencakup 6,6 juta playlist dan 1,7 miliar entri track
    • spotify_clean_track_files.sqlite3: pemetaan antara track dan file aktual, termasuk status file, hash SHA256, dan informasi licensor
  • File JSONL tambahan mencakup data audiobook, podcast, show, dan episode
  • spotify_2025_07_coverart.tar.torrent menyimpan file gambar album art

Partisipasi dan permintaan preservasi

  • Anna’s Archive meminta donasi dan partisipasi seeding torrent
    • Bahkan seeding skala kecil pun dapat berkontribusi pada preservasi keseluruhan
  • Tujuannya adalah melestarikan warisan musik umat manusia secara permanen dari bencana alam, perang, pemotongan anggaran, dan sebagainya

Fitur tambahan dan eksperimen

  • Dimungkinkan untuk mengimplementasikan fitur ‘True Shuffle’ untuk seluruh track Spotify
    • Melalui query SQLite, dapat dibuat playlist acak yang benar-benar acak
  • Jika minat ke depan cukup besar, disebutkan kemungkinan penambahan fitur unduhan file individual

Ringkasan

  • Anna’s Archive mencadangkan hampir seluruh data Spotify dan membangun database metadata musik terbuka terbesar di dunia
  • Sebagai arsip preservasi terbuka penuh, siapa pun dapat melakukan mirror
  • Proyek ini memiliki transparansi struktur data, presisi teknis, dan daya tahan preservasi jangka panjang
  • Melampaui ketergantungan industri musik pada platform komersial, proyek ini menyiapkan fondasi untuk preservasi permanen catatan budaya

Belum ada komentar.

Belum ada komentar.