1 poin oleh GN⁺ 2026-01-14 | 1 komentar | Bagikan ke WhatsApp
  • Belakangan ini, server MetaBrainz mengalami kelebihan beban akibat pengumpulan data tanpa izin oleh perusahaan AI
  • Mereka mengabaikan aturan robots.txt dan merayapi data MusicBrainz per halaman, sebuah cara yang sangat tidak efisien dan bisa memakan waktu ratusan tahun
  • Perilaku yang sama juga menyebar ke API ListenBrainz, sehingga untuk melindungi layanan diterapkan persyaratan token autentikasi dan penutupan sebagian API
  • LB Radio kini hanya dapat digunakan oleh pengguna yang login, dan pemanggilan API juga memerlukan header Authorization
  • Langkah-langkah ini dijelaskan sebagai respons wajib untuk menjaga akses bagi pengguna normal

Masalah kelebihan beban server akibat scraper AI

  • Tim MetaBrainz dalam beberapa bulan terakhir menangani crawling tanpa izin untuk pengumpulan data pelatihan model AI
    • Sejumlah perusahaan AI mengabaikan etika dasar internet seperti robots.txt lalu mengambil data
    • Mereka mengakses data MusicBrainz dengan cara meminta satu halaman demi satu halaman, yang lebih tidak efisien daripada unduhan penuh dan menyebabkan beban server
  • Pendekatan ini memiliki tingkat ketidakefisienan yang bisa memakan ratusan tahun, dan pada akhirnya mengganggu akses pengguna normal

Langkah perlindungan API ListenBrainz

  • Scraper AI mencoba mengumpulkan data dari berbagai endpoint API ListenBrainz
  • Karena itu, perubahan berikut diterapkan:
    • API /metadata/lookup (GET dan POST) hanya berfungsi jika ada token Authorization
    • Endpoint mbid-mapping, mbid-mapping-release, dan mbid-mapping-explain di ListenBrainz Labs API dihapus
      • API tersebut awalnya disediakan untuk debugging, dan nantinya akan diganti dengan endpoint untuk mapper baru
    • LB Radio hanya dapat digunakan oleh pengguna yang login, dan pemanggilan API memerlukan header Authorization

Respons darurat untuk menjaga stabilitas layanan

  • MetaBrainz menyatakan bahwa langkah kali ini merupakan keputusan yang tak terhindarkan untuk mencegah kelebihan beban layanan dan menjaga operasi normal
  • Mereka meminta maaf atas ketidaknyamanan akibat perubahan tanpa pemberitahuan sebelumnya, dan berencana memperbaiki pesan error setelah proyek akhir tahun selesai

Reaksi komunitas

  • Di kolom komentar, diskusi berlanjut mengenai cara kerja scraper AI yang tidak efisien dan struktur web spider otomatis
    • Sebagian pengguna menunjukkan “ketidakmampuan para pekerja AI”
    • Pengguna lain menjelaskan bahwa “crawler otomatis hanya mengikuti tautan dan mengumpulkan data”

Makna keseluruhan

  • Langkah MetaBrainz menunjukkan contoh kerugian pada proyek data terbuka akibat pengumpulan data oleh AI
  • Demi keberlanjutan API publik, penguatan autentikasi dan pembatasan akses menjadi makin tak terhindarkan

1 komentar

 
GN⁺ 2026-01-14
Komentar Hacker News
  • Metabrainz benar-benar merupakan basis data kepentingan publik yang luar biasa
    Dulu saya pernah menulis tentang topik ini di blog EFF
    Data publik seperti milik Metabrainz tidak masalah jika diambil oleh bot AI, tetapi masalahnya adalah mereka mengeruknya dengan cara yang tidak efisien seperti sekarang
    Pada akhirnya ini adalah masalah kegagalan koordinasi. Metabrainz berasumsi bot bertindak dengan itikad baik, tetapi bot mengira situs menyembunyikan data
    Bahkan jika diberi tahu, “berhentilah memukul API, unduh saja file tar.gz ini sekaligus,” mereka tetap tidak percaya
    Bahkan mungkin akan lebih baik jika disediakan sebagai file torrent agar bot bisa berbagi data dengan lebih baik

    • Saya juga menutup situs saya tvnfo.com karena scraper AI
      Sudah saya buka sejak 2016, tetapi konsumsi resource-nya terlalu besar sehingga sekarang hanya tersedia untuk pendukung
      Ini proyek hobi seharga 60 dolar per bulan, jadi makin sulit dipertahankan. Kalau nanti dukungan bertambah, mungkin saya akan memasang solusi pertahanan bot dan membukanya lagi
      Tapi saya kaget mengetahui bahwa masalah ini bukan cuma saya yang mengalaminya. Rasanya internet makin bergerak ke arah yang lebih tertutup
    • Saya penasaran apakah ada cara memberi tahu lewat robots.txt, “ambil file tar dari sini”
      Saya tidak tahu apakah ada fitur seperti itu dalam standarnya
    • Jika bot memakai torrent, manipulasi statistik seeding juga mungkin terjadi
      Dulu saya juga pernah menggelembungkan rasio upload agar tidak dibuang dari tracker pribadi
    • Fakta bahwa bot menganggap situs sebagai pihak yang bermusuhan adalah masalah serius
      Mengabaikan kehendak pemilik situs adalah pendekatan yang salah
    • Sebenarnya sebagian besar “scraper AI” hanyalah skrip crawler rekursif sederhana
      Bukan AI sungguhan yang membaca halaman lalu memutuskan, melainkan sekadar kode otomatis yang mengikuti tautan dan mengeruk dokumen
  • AI sedang merusak ekosistem web yang bebas
    Web host saya tiba-tiba menangguhkan akun karena lonjakan trafik bot
    Akhirnya saya pindah ke host baru, tetapi operator individu tidak punya harapan dalam situasi seperti ini
    Perusahaan AI punya sumber daya tak terbatas dan tidak peduli pada dampak kerusakannya
    Jika dilihat secara sinis, ini mungkin strategi yang disengaja — menghilangkan situs gratis agar orang pada akhirnya hanya mendapatkan informasi lewat model AI

    • Layanan ringkasan AI sedang merampas lebih dari separuh trafik web independen
      Nilai ekonomis berbagi informasi sedang runtuh
      Pada akhirnya segelintir perusahaan akan memonopoli nilainya, lalu enshittification akan dimulai
  • Saya mengelola situs PTA sekolah anak saya, dan bot OpenAI mengeruk kalender acara secara acak
    Permintaan terus datang untuk tahun 1000 sampai 3000
    Setelah User-Agent diblokir, barulah berhenti sekitar 4 jam kemudian

  • Saya menjalankan situs web statis dan instance cgit di VPS Google Cloud e2-micro
    Dalam 160 hari, saya menerima lebih dari 8,5 juta request dari OpenAI dan Claude
    Jadi saya mengatur lighttpd agar mengembalikan 403 jika User-Agent mengandung “claude|openai”, dan menerapkan rate limiting dengan nftables

    • Bot seperti ini justru masih termasuk yang “punya hati nurani”
      Masalah sebenarnya adalah botnet yang memakai proxy residensial. Mereka masuk sambil berpura-pura sebagai browser biasa
    • OpenAI mempublikasikan daftar IP bot resminya, tetapi Anthropic tidak
    • Menariknya, blog GitHub saya sama sekali tidak mengalami scraping semacam ini
      Saya jadi bertanya-tanya apakah Microsoft yang memblokirnya, atau blog saya memang berada di level yang tidak menarik bagi bot
  • Cloudflare sekarang menyediakan layanan deteksi scraper AI
    Bot yang terdeteksi diarahkan ke halaman buatan AI dengan loop tak berujung

    • Tetapi untuk melakukan ini, semua trafik harus melewati Cloudflare
      Pada akhirnya jadi terasa tidak nyaman karena pihak ketiga yang menentukan hak akses ke konten saya
    • Cloudflare sering menyebabkan masalah akses bagi pengguna VPN dan browser yang langka
      Saya juga sangat tidak puas sampai akhirnya menghapusnya
    • Menurut saya itu tidak cocok sebagai “layanan penambahan dan penghapusan TLS”
    • Sebagai ide terkait, ada proyek Poison Fountain
    • Jika Cloudflare berhasil menguasai cukup banyak situs, mereka bahkan bisa mengenakan biaya akses cache kepada perusahaan AI
  • Tim SQLite juga mengalami masalah serupa
    Sang pendiri Richard Hipp mengkritiknya sebagai ‘tindakan egois’, dengan mengatakan, “cukup clone seluruh repositori saja, tidak perlu mengeruk sambil merugikan orang lain”
    Lihat posting forum terkait

    • Tetapi ada juga yang membantah dengan mengatakan, “menyebutnya berniat jahat itu terlalu berlebihan”
  • Semakin lama, saya makin merasa semua crawling perlu disatukan lewat saluran publik bersama seperti Common Crawl
    Beban server harus dikurangi sambil tetap menjaga keterbukaan web dan kemampuan scraping
    Misalnya, bisa distandardisasi dengan menaruh tautan dump data bertimestamp di bawah path /well-known/

    • MetaBrainz sudah memakai pendekatan seperti ini — seluruh DB disediakan dalam bentuk tarball
      Saya juga mengunduhnya sekitar satu jam, lalu setelah itu cukup memakai query lokal
      Tetapi kebanyakan orang tetap tidak memakai dump karena scraping masih lebih mudah
    • Saya rasa kita perlu reformasi sistem hak cipta
      Saya mengusulkan struktur di mana setelah jangka waktu tertentu, data disumbangkan ke “dataset nasional”, lalu dipakai untuk pelatihan AI dan keuntungannya dibagikan kepada pemegang hak cipta
      Dengan begitu pengembang AI, pemegang hak cipta, dan publik semuanya bisa diuntungkan
    • Saya sendiri juga melakukan scraping skala kecil dengan skrip Tampermonkey
      Saya memakai AI untuk menghasilkan kode dan mengumpulkan hal-hal seperti daftar harga VPS secara otomatis
      Dulu saya juga pernah mengeruk semua headline lowendtalk dan menjadikannya dataset untuk analisis LLM
    • Mungkin juga bisa dibuat file standar seperti /llms.txt, yang hanya menyediakan data teks murni yang dibutuhkan LLM
      URL, alamat, nomor telepon, dan semacamnya dihapus, lalu hanya markup minimum seperti <item> dan <subitem> yang dipertahankan
      Namun kemungkinan banyak situs hanya akan menaruh file kosong yang sekadar memenuhi format
    • Sebenarnya ini bukan masalah teknis, melainkan masalah struktur ekonomi
      Modal besar sedang merusak web demi keuntungan jangka pendek
      Tetapi saya percaya pada akhirnya akan muncul adaptasi dan keseimbangan
  • Belakangan ini bukan hanya scraper AI, tetapi pengguna sendiri melakukan scraping tidak langsung lewat permintaan ringkasan
    Misalnya, Firefox menyediakan pratinjau ringkasan tanpa harus mengklik tautan
    Gambar terkait

    • Fitur ini menghasilkan ringkasan dengan model SmolLM2-360M yang berjalan secara lokal dengan llama.cpp (wllama)
      Pada akhirnya browser mengambil halaman secara langsung dan merangkumnya, jadi dari sisi situs terlihat sebagai request yang sama
      Lihat penjelasan resmi Mozilla
    • Masalahnya ada tiga
      1. Crawling tidak etis oleh perusahaan AI
      2. Permintaan ringkasan berbasis agen oleh pengguna
      3. Agen seperti ini lebih tidak efisien daripada manusia tetapi jauh lebih cepat
    • Namun pengguna bukan “terlatih” untuk memakainya, mereka memakainya hanya karena LLM memang bekerja sangat baik
  • Scraper sekarang menghindari deteksi dengan memakai pool IP residensial

    • Saya curiga ISP yang menyediakan pool IP seperti ini mungkin telah menciptakan model bisnis baru
    • Selain itu, sekarang semakin banyak bot yang menjalankan browser sungguhan, sehingga bahkan bisa lolos dari captcha Cloudflare
      Dalam situasi seperti ini, saya tidak tahu berapa lama lagi langkah pertahanan akan tetap efektif