Cadangan Lengkap Spotify Dipublikasikan
(annas-archive.li)- Anna’s Archive mencadangkan seluruh metadata dan file musik Spotify lalu merilisnya sebagai arsip torrent sekitar 300TB
- Mencakup sekitar 256 juta metadata lagu dan 86 juta file musik, yang merepresentasikan 99,6% dari total pemutaran
- Lagu populer disimpan dalam kualitas asli OGG Vorbis 160kbit/s, sementara lagu yang tidak populer disimpan sebagai OGG Opus 75kbit/s untuk preservasi yang efisien
- Data disediakan dalam bentuk database SQLite dan mencakup struktur detail seperti playlist, fitur audio, dan album art
- Arsip preservasi musik terbuka penuh pertama di dunia untuk melestarikan warisan musik umat manusia secara permanen dari bencana alam, perang, pemotongan anggaran, dan lainnya
Gambaran proyek
- Anna’s Archive melakukan backup dengan scraping skala besar atas seluruh metadata dan file musik Spotify
- Total ukuran sekitar 300TB, didistribusikan dalam bentuk torrent yang dikelompokkan berdasarkan popularitas
- Mencakup 256 juta track dan 186 juta kode ISRC unik
- Arsip ini merupakan repositori preservasi musik terbuka penuh yang bisa di-mirror oleh siapa pun, dan mencakup 86 juta file musik
- Ini mewakili sekitar 99,6% dari seluruh pemutaran di Spotify
- Anna’s Archive sebelumnya berfokus pada preservasi berbasis teks (buku, makalah, dan sebagainya), tetapi kali ini meluas ke media nonteks berupa musik
- Setelah menemukan metode scraping terstruktur untuk Spotify, mereka mendorong pembangunan arsip yang berfokus pada preservasi musik
Keterbatasan preservasi musik yang ada
- Upaya preservasi musik sebelumnya memiliki tiga masalah utama
- Musik nonarus utama terpinggirkan akibat bias terhadap artis populer
- Obsesi pada kualitas lossless menyebabkan penggunaan kapasitas penyimpanan yang tidak efisien
- Tidak adanya daftar torrent yang mewakili seluruh musik
- Backup Spotify kali ini melengkapi kekurangan tersebut dengan membangun arsip musik yang berfokus pada preservasi
Komposisi data dan statistik
- Berhasil memperoleh metadata untuk 99,9% dari sekitar 256 juta track di Spotify
- Prioritas ditentukan berdasarkan indikator popularitas (popularity)
- Track dengan
popularity>0disimpan dalam kualitas asli OGG Vorbis 160kbit/s - Track dengan
popularity=0di-encode ulang menjadi OGG Opus 75kbit/s
- Track dengan
- Mencakup sebagian besar lagu yang dirilis sebelum Juli 2025
- Total streaming tiga lagu teratas (Lady Gaga, Billie Eilish, Bad Bunny) lebih besar daripada gabungan 20 juta hingga 100 juta lagu terbawah
- Lebih dari 70% dari seluruh lagu adalah lagu tidak populer dengan jumlah pemutaran kurang dari 1.000 kali
Struktur distribusi torrent
- Data terdiri dari dua bagian: metadata dan file musik
- Metadata: disediakan sebagai SQLite DB, sekitar 200GB (terkompresi)
- Data analisis audio: 4TB (terkompresi)
- File musik didistribusikan dalam format Anna’s Archive Containers (AAC)
- Setelah menghapus paket OGG yang keliru dari Spotify, metadata seperti judul, ISRC, album art, dan informasi replaygain disisipkan
- Terdapat kesalahan tag
REPLAYGAIN_ALBUM_PEAKpada sebagian file
Eksplorasi dan analisis data
- Distribusi popularitas: sebagian besar pemutaran terjadi pada lagu di rentang
popularity 50~80 - Durasi track: puncak muncul pada kisaran 2 menit, 3 menit, dan 4 menit
- Termasuk statistik konten Explicit dan lagu dengan ISRC duplikat
- Distribusi genre artis: tersedia visualisasi berdasarkan genre rinci maupun genre yang dikelompokkan
- Analisis tahun rilis album: lonjakan tajam musik hasil generasi otomatis dan AI belakangan ini
- Analisis fitur audio: BPM rata-rata sekitar 120, dengan konfirmasi korelasi antara loudness dan energy
Struktur detail metadata
- Susunan file SQLite utama
spotify_clean.sqlite3: replikasi API artis, album, dan track yang nyaris lengkapspotify_clean_audio_features.sqlite3: menyimpan fitur audio per track seperti BPM, key, energy, valence, dan lainnyaspotify_clean_playlists.sqlite3: mencakup 6,6 juta playlist dan 1,7 miliar entri trackspotify_clean_track_files.sqlite3: pemetaan antara track dan file aktual, termasuk status file, hash SHA256, dan informasi licensor
- File JSONL tambahan mencakup data audiobook, podcast, show, dan episode
spotify_2025_07_coverart.tar.torrentmenyimpan file gambar album art
Partisipasi dan permintaan preservasi
- Anna’s Archive meminta donasi dan partisipasi seeding torrent
- Bahkan seeding skala kecil pun dapat berkontribusi pada preservasi keseluruhan
- Tujuannya adalah melestarikan warisan musik umat manusia secara permanen dari bencana alam, perang, pemotongan anggaran, dan sebagainya
Fitur tambahan dan eksperimen
- Dimungkinkan untuk mengimplementasikan fitur ‘True Shuffle’ untuk seluruh track Spotify
- Melalui query SQLite, dapat dibuat playlist acak yang benar-benar acak
- Jika minat ke depan cukup besar, disebutkan kemungkinan penambahan fitur unduhan file individual
Ringkasan
- Anna’s Archive mencadangkan hampir seluruh data Spotify dan membangun database metadata musik terbuka terbesar di dunia
- Sebagai arsip preservasi terbuka penuh, siapa pun dapat melakukan mirror
- Proyek ini memiliki transparansi struktur data, presisi teknis, dan daya tahan preservasi jangka panjang
- Melampaui ketergantungan industri musik pada platform komersial, proyek ini menyiapkan fondasi untuk preservasi permanen catatan budaya
7 komentar
Spotify bakal kesal, ya?
https://id.news.hada.io/topic?id=26059
Melihat berita terbaru, katanya dia sedang digugat.
Di suatu tempat antara pahlawan rakyat dan penjahat...
Hak cipta adalah...
Sekarang model generasi musik yang sebelumnya hanya terbatas pada layanan komersial seperti Suno tampaknya juga bisa dilatih secara open-weight dan open-source.
Luar biasa banget, wow wow
Komentar Hacker News
Ini benar-benar mengejutkan
Saya tidak tahu bahwa DRM Spotify sudah bisa dibobol sampai unduhan skala sebesar ini jadi memungkinkan
Mungkin tidak terlalu berguna bagi pengguna biasa, tetapi bagi peneliti klasifikasi atau generasi musik ini bisa menjadi peluang yang sangat besar
Namun, sepertinya akan sulit untuk mengungkap dataset mana yang dipakai untuk pelatihan
Saya penasaran apakah ini dilakukan karena permintaan peneliti AI, atau sekadar untuk tujuan pelestarian
Perangkat atau aplikasi yang otomatis mencari streaming TV/film ilegal sudah sangat umum
Secara teknis ini sangat mungkin, dan anggota keluarga saya yang bukan ahli pun menggunakannya
Hanya saja, tim Anna’s Archive adalah kelompok yang bergerak karena motivasi ideologis, jadi ini bukan untuk perusahaan AI
Kalau butuh musik, saya biasanya ambil dari YouTube pakai ytldp, tetapi sekarang itu pun hampir tidak saya lakukan lagi
Dibanding musik, saya lebih sering memakai YouTube untuk berita atau suara latar
Agak menyedihkan bahwa Google mengendalikan semua ini
Arah yang benar justru adalah mengatur perusahaan seperti Spotify agar kompensasi yang adil bagi musisi bisa terjamin
Publikasi data seperti ini malah mendorong produksi sampah AI
Kalau memikirkan skalanya, ini benar-benar luar biasa
Dulu What.CD disebut sebagai ‘Perpustakaan Aleksandria dunia musik’, dan saat itu pun skalanya hanya jutaan torrent
Tetapi rip Spotify milik Anna mencakup 186 juta rekaman unik
Memang, di bagian akhir mungkin ada juga musik bot dan semacamnya, tetapi skalanya sendiri sudah sangat mengesankan
Dari EP awal band desa sampai rekaman langka yang tidak bisa masuk layanan streaming karena status haknya tidak jelas, semuanya ada
Kesenangan menemukan hal baru yang lahir dari rekomendasi komunitas, ulasan, dan playlist buatan tangan tidak bisa digantikan algoritma
Berkat itu saya jadi mengenal banyak artis yang masih saya sukai sampai sekarang
Itu adalah komunitas yang murni mencintai musik, dan bahkan Trent Reznor pernah memujinya secara terbuka
Sayang sekali komunitas musik yang sepolos ini sekarang sudah menghilang
Spotify punya keterbatasan karena hanya memuat lagu yang memiliki lisensi streaming
Untuk menjadi arsip musik yang benar-benar lengkap, jalannya masih panjang
Saya pribadi merasa proyek seperti ini memang sangat perlu
Tempat seperti Anna’s Archive sama pentingnya dengan Internet Archive
Intinya adalah pelestarian warisan digital seperti situs web, game, dan buku
Seiring pergantian generasi, banyak orang yang tidak sempat merasakan kreativitas web masa lalu
Saya merasa generasi sekarang adalah generasi yang punya kesempatan untuk melestarikan semua ini
Di zaman ketika musik dan film satu per satu menghilang dari platform, pelestarian seperti ini benar-benar penting
Saya sendiri punya tiga playlist yang memudar jadi abu-abu — bahkan judulnya pun hilang, jadi saya tidak tahu lagi dulu pernah mendengarkan apa
Karena itu, musik yang ingin saya miliki selamanya saya beli dalam bentuk CD, sedangkan musik dance saya biarkan berlalu saja
Pekerjaan seperti ini benar-benar penting
Bahkan kalau melihat artikel 10 tahun lalu, sebagian besar tautan eksternalnya sudah hilang jadi 404
Memang ada pertanyaan apakah semuanya harus disimpan, tetapi kalau bisa, harus dilestarikan
Mengejutkan
Fakta bahwa Spotify berhasil di-scrape dalam skala besar itu sendiri sudah menarik
Mereka tentu tidak akan mengungkap detail metodenya, tetapi sepertinya menarik untuk dibaca
Hanya saja, sebaiknya jangan disalahgunakan dan cukup dinikmati pada level proyek hobi
Server musik saya juga memutar trek Spotify dengan cara seperti ini
Tautan kode
Secara pribadi saya kurang suka dengan ini
Sudah ada sumber dengan kualitas suara yang lebih baik, dan rip besar-besaran seperti ini hanya menambah risiko hukum
Saya terutama khawatir perpustakaan ebook juga ikut terancam
Bahkan dalam pengumumannya disebutkan bahwa “musik sudah cukup terlestarikan”, jadi seharusnya ini dipisahkan sebagai proyek tersendiri
Penyedia internet Jerman (SIM.de/Drillisch) ternyata memblokir Anna’s Archive
Saat VPN dimatikan saya tidak bisa mengaksesnya, dan baru terbuka kalau Mullvad VPN dinyalakan
Saya tidak tahu ada penyensoran seperti ini di Jerman
Jika mencari
alextud popcorntime, hasil PopcornTimeTV GitHub tidak munculGoogle, Kagi, DuckDuckGo, dan Bing semuanya sama
Fork-nya muncul, tetapi yang asli tidak, jadi saya curiga ada pemfilteran pencarian
Dulu ada musik-musik yang dihapus dari beberapa platform sekaligus
Saya penasaran apakah itu bisa ditemukan lagi lewat arsip seperti ini
Sekarang versi modern dari lost media muncul setiap hari
Beberapa penerbit sengaja berusaha menghapus semua salinan yang ada, dan menurut saya itu adalah tindakan yang mengerikan secara mental
Menghancurkan karya kreatif sepenuhnya tidak bisa dibenarkan dengan alasan apa pun
Jika sesuatu hanya tersisa di kaset dalam brankas besi, itu tidak berbeda dengan tidak ada
Secara teknis, membuat server streaming dengan torrent sebagai backend juga memungkinkan
Caranya adalah hanya mengunduh bagian yang dibutuhkan setiap kali ada permintaan
Tautan makalah terkait
Spotify masih cukup murah jadi saya belum terlalu memikirkannya, tetapi masalah kompensasi artis tetap ada
Suatu hari nanti saya berharap server musik self-hosted berbasis torrent bisa dibuat dengan mudah