29 poin oleh GN⁺ 2025-12-21 | 7 komentar | Bagikan ke WhatsApp
  • Anna’s Archive mencadangkan seluruh metadata dan file musik Spotify lalu merilisnya sebagai arsip torrent sekitar 300TB
  • Mencakup sekitar 256 juta metadata lagu dan 86 juta file musik, yang merepresentasikan 99,6% dari total pemutaran
  • Lagu populer disimpan dalam kualitas asli OGG Vorbis 160kbit/s, sementara lagu yang tidak populer disimpan sebagai OGG Opus 75kbit/s untuk preservasi yang efisien
  • Data disediakan dalam bentuk database SQLite dan mencakup struktur detail seperti playlist, fitur audio, dan album art
  • Arsip preservasi musik terbuka penuh pertama di dunia untuk melestarikan warisan musik umat manusia secara permanen dari bencana alam, perang, pemotongan anggaran, dan lainnya

Gambaran proyek

  • Anna’s Archive melakukan backup dengan scraping skala besar atas seluruh metadata dan file musik Spotify
    • Total ukuran sekitar 300TB, didistribusikan dalam bentuk torrent yang dikelompokkan berdasarkan popularitas
    • Mencakup 256 juta track dan 186 juta kode ISRC unik
  • Arsip ini merupakan repositori preservasi musik terbuka penuh yang bisa di-mirror oleh siapa pun, dan mencakup 86 juta file musik
    • Ini mewakili sekitar 99,6% dari seluruh pemutaran di Spotify
  • Anna’s Archive sebelumnya berfokus pada preservasi berbasis teks (buku, makalah, dan sebagainya), tetapi kali ini meluas ke media nonteks berupa musik
  • Setelah menemukan metode scraping terstruktur untuk Spotify, mereka mendorong pembangunan arsip yang berfokus pada preservasi musik

Keterbatasan preservasi musik yang ada

  • Upaya preservasi musik sebelumnya memiliki tiga masalah utama
    1. Musik nonarus utama terpinggirkan akibat bias terhadap artis populer
    2. Obsesi pada kualitas lossless menyebabkan penggunaan kapasitas penyimpanan yang tidak efisien
    3. Tidak adanya daftar torrent yang mewakili seluruh musik
    Iklan
  • Backup Spotify kali ini melengkapi kekurangan tersebut dengan membangun arsip musik yang berfokus pada preservasi

Komposisi data dan statistik

  • Berhasil memperoleh metadata untuk 99,9% dari sekitar 256 juta track di Spotify
  • Prioritas ditentukan berdasarkan indikator popularitas (popularity)
    • Track dengan popularity>0 disimpan dalam kualitas asli OGG Vorbis 160kbit/s
    • Track dengan popularity=0 di-encode ulang menjadi OGG Opus 75kbit/s
  • Mencakup sebagian besar lagu yang dirilis sebelum Juli 2025
  • Total streaming tiga lagu teratas (Lady Gaga, Billie Eilish, Bad Bunny) lebih besar daripada gabungan 20 juta hingga 100 juta lagu terbawah
  • Lebih dari 70% dari seluruh lagu adalah lagu tidak populer dengan jumlah pemutaran kurang dari 1.000 kali

Struktur distribusi torrent

  • Data terdiri dari dua bagian: metadata dan file musik
    • Metadata: disediakan sebagai SQLite DB, sekitar 200GB (terkompresi)
    • Data analisis audio: 4TB (terkompresi)
  • File musik didistribusikan dalam format Anna’s Archive Containers (AAC)
    • Setelah menghapus paket OGG yang keliru dari Spotify, metadata seperti judul, ISRC, album art, dan informasi replaygain disisipkan
    • Terdapat kesalahan tag REPLAYGAIN_ALBUM_PEAK pada sebagian file
    Iklan

Eksplorasi dan analisis data

  • Distribusi popularitas: sebagian besar pemutaran terjadi pada lagu di rentang popularity 50~80
  • Durasi track: puncak muncul pada kisaran 2 menit, 3 menit, dan 4 menit
  • Termasuk statistik konten Explicit dan lagu dengan ISRC duplikat
  • Distribusi genre artis: tersedia visualisasi berdasarkan genre rinci maupun genre yang dikelompokkan
  • Analisis tahun rilis album: lonjakan tajam musik hasil generasi otomatis dan AI belakangan ini
  • Analisis fitur audio: BPM rata-rata sekitar 120, dengan konfirmasi korelasi antara loudness dan energy

Struktur detail metadata

  • Susunan file SQLite utama
    • spotify_clean.sqlite3: replikasi API artis, album, dan track yang nyaris lengkap
    • spotify_clean_audio_features.sqlite3: menyimpan fitur audio per track seperti BPM, key, energy, valence, dan lainnya
    • spotify_clean_playlists.sqlite3: mencakup 6,6 juta playlist dan 1,7 miliar entri track
    • spotify_clean_track_files.sqlite3: pemetaan antara track dan file aktual, termasuk status file, hash SHA256, dan informasi licensor
  • File JSONL tambahan mencakup data audiobook, podcast, show, dan episode
  • spotify_2025_07_coverart.tar.torrent menyimpan file gambar album art
Iklan

Partisipasi dan permintaan preservasi

  • Anna’s Archive meminta donasi dan partisipasi seeding torrent
    • Bahkan seeding skala kecil pun dapat berkontribusi pada preservasi keseluruhan
  • Tujuannya adalah melestarikan warisan musik umat manusia secara permanen dari bencana alam, perang, pemotongan anggaran, dan sebagainya

Fitur tambahan dan eksperimen

  • Dimungkinkan untuk mengimplementasikan fitur ‘True Shuffle’ untuk seluruh track Spotify
    • Melalui query SQLite, dapat dibuat playlist acak yang benar-benar acak
  • Jika minat ke depan cukup besar, disebutkan kemungkinan penambahan fitur unduhan file individual

Ringkasan

  • Anna’s Archive mencadangkan hampir seluruh data Spotify dan membangun database metadata musik terbuka terbesar di dunia
  • Sebagai arsip preservasi terbuka penuh, siapa pun dapat melakukan mirror
  • Proyek ini memiliki transparansi struktur data, presisi teknis, dan daya tahan preservasi jangka panjang
  • Melampaui ketergantungan industri musik pada platform komersial, proyek ini menyiapkan fondasi untuk preservasi permanen catatan budaya

7 komentar

 
tested 2025-12-24

Spotify bakal kesal, ya?

 
lsdcnu 2026-01-25

https://id.news.hada.io/topic?id=26059
Melihat berita terbaru, katanya dia sedang digugat.

 
vndk2234 2025-12-23

Di suatu tempat antara pahlawan rakyat dan penjahat...

 
roxie 2025-12-21

Hak cipta adalah...

 
devworld 2025-12-21

Sekarang model generasi musik yang sebelumnya hanya terbatas pada layanan komersial seperti Suno tampaknya juga bisa dilatih secara open-weight dan open-source.

 
daumkakao 2025-12-21

Luar biasa banget, wow wow

 
GN⁺ 2025-12-21
Komentar Hacker News
  • Ini benar-benar mengejutkan
    Saya tidak tahu bahwa DRM Spotify sudah bisa dibobol sampai unduhan skala sebesar ini jadi memungkinkan
    Mungkin tidak terlalu berguna bagi pengguna biasa, tetapi bagi peneliti klasifikasi atau generasi musik ini bisa menjadi peluang yang sangat besar
    Namun, sepertinya akan sulit untuk mengungkap dataset mana yang dipakai untuk pelatihan
    Saya penasaran apakah ini dilakukan karena permintaan peneliti AI, atau sekadar untuk tujuan pelestarian

    • Saya tidak setuju kalau ini tidak berguna bagi pengguna biasa
      Perangkat atau aplikasi yang otomatis mencari streaming TV/film ilegal sudah sangat umum
      Secara teknis ini sangat mungkin, dan anggota keluarga saya yang bukan ahli pun menggunakannya
      Hanya saja, tim Anna’s Archive adalah kelompok yang bergerak karena motivasi ideologis, jadi ini bukan untuk perusahaan AI
    • Saya tidak memakai Spotify
      Kalau butuh musik, saya biasanya ambil dari YouTube pakai ytldp, tetapi sekarang itu pun hampir tidak saya lakukan lagi
      Dibanding musik, saya lebih sering memakai YouTube untuk berita atau suara latar
      Agak menyedihkan bahwa Google mengendalikan semua ini
    • Sebenarnya, metadata mungkin lebih berharga daripada file musiknya sendiri
    • Menyebut ini “demi peneliti klasifikasi musik” terdengar seperti rasionalisasi diri agar tidak perlu mendukung para seniman
      Arah yang benar justru adalah mengatur perusahaan seperti Spotify agar kompensasi yang adil bagi musisi bisa terjamin
      Publikasi data seperti ini malah mendorong produksi sampah AI
    • Dengan materi seperti ini, sepertinya akan lebih mudah membuat alat pengumpulan musik otomatis seperti Lidarr pada level per trek
  • Kalau memikirkan skalanya, ini benar-benar luar biasa
    Dulu What.CD disebut sebagai ‘Perpustakaan Aleksandria dunia musik’, dan saat itu pun skalanya hanya jutaan torrent
    Tetapi rip Spotify milik Anna mencakup 186 juta rekaman unik
    Memang, di bagian akhir mungkin ada juga musik bot dan semacamnya, tetapi skalanya sendiri sudah sangat mengesankan

    • Yang membuat What.CD hebat bukan sekadar jumlahnya, tetapi kelangkaan dan kualitasnya
      Dari EP awal band desa sampai rekaman langka yang tidak bisa masuk layanan streaming karena status haknya tidak jelas, semuanya ada
      Kesenangan menemukan hal baru yang lahir dari rekomendasi komunitas, ulasan, dan playlist buatan tangan tidak bisa digantikan algoritma
      Berkat itu saya jadi mengenal banyak artis yang masih saya sukai sampai sekarang
    • Sebelum What.CD ada OiNK’s Pink Palace
      Itu adalah komunitas yang murni mencintai musik, dan bahkan Trent Reznor pernah memujinya secara terbuka
      Sayang sekali komunitas musik yang sepolos ini sekarang sudah menghilang
    • Betul, di What.CD ada banyak musik yang tidak ada di Spotify, seperti CD, bootleg, kaset, dan sebagainya
      Spotify punya keterbatasan karena hanya memuat lagu yang memiliki lisensi streaming
    • Saya juga sering mendengarkan lagu-lagu non-mainstream di YouTube Music, dan banyak komentar seperti, “Sayang sekali tidak ada di Spotify”
      Untuk menjadi arsip musik yang benar-benar lengkap, jalannya masih panjang
    • What.CD menghitung torrent per album, sedangkan Spotify juga mencakup podcast dan konten buatan AI
  • Saya pribadi merasa proyek seperti ini memang sangat perlu
    Tempat seperti Anna’s Archive sama pentingnya dengan Internet Archive
    Intinya adalah pelestarian warisan digital seperti situs web, game, dan buku
    Seiring pergantian generasi, banyak orang yang tidak sempat merasakan kreativitas web masa lalu
    Saya merasa generasi sekarang adalah generasi yang punya kesempatan untuk melestarikan semua ini

  • Di zaman ketika musik dan film satu per satu menghilang dari platform, pelestarian seperti ini benar-benar penting
    Saya sendiri punya tiga playlist yang memudar jadi abu-abu — bahkan judulnya pun hilang, jadi saya tidak tahu lagi dulu pernah mendengarkan apa
    Karena itu, musik yang ingin saya miliki selamanya saya beli dalam bentuk CD, sedangkan musik dance saya biarkan berlalu saja

  • Pekerjaan seperti ini benar-benar penting
    Bahkan kalau melihat artikel 10 tahun lalu, sebagian besar tautan eksternalnya sudah hilang jadi 404
    Memang ada pertanyaan apakah semuanya harus disimpan, tetapi kalau bisa, harus dilestarikan

  • Mengejutkan
    Fakta bahwa Spotify berhasil di-scrape dalam skala besar itu sendiri sudah menarik
    Mereka tentu tidak akan mengungkap detail metodenya, tetapi sepertinya menarik untuk dibaca

    • Sebenarnya tidak sesulit itu
      Hanya saja, sebaiknya jangan disalahgunakan dan cukup dinikmati pada level proyek hobi
      Server musik saya juga memutar trek Spotify dengan cara seperti ini
      Tautan kode
    • Yang lebih mengejutkan adalah fakta bahwa 300TB data dikirim secara anonim
    • Mungkin mereka memakai alat seperti ini → spotizerr-spotify
  • Secara pribadi saya kurang suka dengan ini
    Sudah ada sumber dengan kualitas suara yang lebih baik, dan rip besar-besaran seperti ini hanya menambah risiko hukum
    Saya terutama khawatir perpustakaan ebook juga ikut terancam
    Bahkan dalam pengumumannya disebutkan bahwa “musik sudah cukup terlestarikan”, jadi seharusnya ini dipisahkan sebagai proyek tersendiri

  • Penyedia internet Jerman (SIM.de/Drillisch) ternyata memblokir Anna’s Archive
    Saat VPN dimatikan saya tidak bisa mengaksesnya, dan baru terbuka kalau Mullvad VPN dinyalakan
    Saya tidak tahu ada penyensoran seperti ini di Jerman

    • Saya juga punya pengalaman serupa
      Jika mencari alextud popcorntime, hasil PopcornTimeTV GitHub tidak muncul
      Google, Kagi, DuckDuckGo, dan Bing semuanya sama
      Fork-nya muncul, tetapi yang asli tidak, jadi saya curiga ada pemfilteran pencarian
  • Dulu ada musik-musik yang dihapus dari beberapa platform sekaligus
    Saya penasaran apakah itu bisa ditemukan lagi lewat arsip seperti ini
    Sekarang versi modern dari lost media muncul setiap hari
    Beberapa penerbit sengaja berusaha menghapus semua salinan yang ada, dan menurut saya itu adalah tindakan yang mengerikan secara mental
    Menghancurkan karya kreatif sepenuhnya tidak bisa dibenarkan dengan alasan apa pun
    Jika sesuatu hanya tersisa di kaset dalam brankas besi, itu tidak berbeda dengan tidak ada

  • Secara teknis, membuat server streaming dengan torrent sebagai backend juga memungkinkan
    Caranya adalah hanya mengunduh bagian yang dibutuhkan setiap kali ada permintaan

    • Spotify sendiri sampai 2014 masih memakai streaming P2P
      Tautan makalah terkait
    • Saya juga baru-baru ini membangun *stack arr homelab, tetapi untuk musik saya masih belum merasa kebutuhannya sepadan dengan biayanya
      Spotify masih cukup murah jadi saya belum terlalu memikirkannya, tetapi masalah kompensasi artis tetap ada
      Suatu hari nanti saya berharap server musik self-hosted berbasis torrent bisa dibuat dengan mudah
    • Secara teknis ini tidak boleh dilakukan, tetapi memang bisa
    • Ini semacam model Popcorn Time