Mengapa layanan bagus tidak bisa dipertahankan karena scraper AI

(blog.metabrainz.org)

1 poin oleh GN⁺ 2026-01-14 | 1 komentar | Bagikan ke WhatsApp

Belakangan ini, server MetaBrainz mengalami kelebihan beban akibat pengumpulan data tanpa izin oleh perusahaan AI
Mereka mengabaikan aturan robots.txt dan merayapi data MusicBrainz per halaman, sebuah cara yang sangat tidak efisien dan bisa memakan waktu ratusan tahun
Perilaku yang sama juga menyebar ke API ListenBrainz, sehingga untuk melindungi layanan diterapkan persyaratan token autentikasi dan penutupan sebagian API
LB Radio kini hanya dapat digunakan oleh pengguna yang login, dan pemanggilan API juga memerlukan header Authorization
Langkah-langkah ini dijelaskan sebagai respons wajib untuk menjaga akses bagi pengguna normal

Masalah kelebihan beban server akibat scraper AI

Tim MetaBrainz dalam beberapa bulan terakhir menangani crawling tanpa izin untuk pengumpulan data pelatihan model AI
- Sejumlah perusahaan AI mengabaikan etika dasar internet seperti robots.txt lalu mengambil data
- Mereka mengakses data MusicBrainz dengan cara meminta satu halaman demi satu halaman, yang lebih tidak efisien daripada unduhan penuh dan menyebabkan beban server
Pendekatan ini memiliki tingkat ketidakefisienan yang bisa memakan ratusan tahun, dan pada akhirnya mengganggu akses pengguna normal

Langkah perlindungan API ListenBrainz

Scraper AI mencoba mengumpulkan data dari berbagai endpoint API ListenBrainz
Karena itu, perubahan berikut diterapkan:
- API /metadata/lookup (GET dan POST) hanya berfungsi jika ada token Authorization
- Endpoint mbid-mapping, mbid-mapping-release, dan mbid-mapping-explain di ListenBrainz Labs API dihapus
  - API tersebut awalnya disediakan untuk debugging, dan nantinya akan diganti dengan endpoint untuk mapper baru
- LB Radio hanya dapat digunakan oleh pengguna yang login, dan pemanggilan API memerlukan header Authorization

Respons darurat untuk menjaga stabilitas layanan

MetaBrainz menyatakan bahwa langkah kali ini merupakan keputusan yang tak terhindarkan untuk mencegah kelebihan beban layanan dan menjaga operasi normal
Mereka meminta maaf atas ketidaknyamanan akibat perubahan tanpa pemberitahuan sebelumnya, dan berencana memperbaiki pesan error setelah proyek akhir tahun selesai

Reaksi komunitas

Di kolom komentar, diskusi berlanjut mengenai cara kerja scraper AI yang tidak efisien dan struktur web spider otomatis
- Sebagian pengguna menunjukkan “ketidakmampuan para pekerja AI”
- Pengguna lain menjelaskan bahwa “crawler otomatis hanya mengikuti tautan dan mengumpulkan data”

Makna keseluruhan

Langkah MetaBrainz menunjukkan contoh kerugian pada proyek data terbuka akibat pengumpulan data oleh AI
Demi keberlanjutan API publik, penguatan autentikasi dan pembatasan akses menjadi makin tak terhindarkan

1 komentar

GN⁺ 2026-01-14

Komentar Hacker News

Metabrainz benar-benar merupakan basis data kepentingan publik yang luar biasa
Dulu saya pernah menulis tentang topik ini di blog EFF
Data publik seperti milik Metabrainz tidak masalah jika diambil oleh bot AI, tetapi masalahnya adalah mereka mengeruknya dengan cara yang tidak efisien seperti sekarang
Pada akhirnya ini adalah masalah kegagalan koordinasi. Metabrainz berasumsi bot bertindak dengan itikad baik, tetapi bot mengira situs menyembunyikan data
Bahkan jika diberi tahu, “berhentilah memukul API, unduh saja file tar.gz ini sekaligus,” mereka tetap tidak percaya
Bahkan mungkin akan lebih baik jika disediakan sebagai file torrent agar bot bisa berbagi data dengan lebih baik
- Saya juga menutup situs saya tvnfo.com karena scraper AI
  Sudah saya buka sejak 2016, tetapi konsumsi resource-nya terlalu besar sehingga sekarang hanya tersedia untuk pendukung
  Ini proyek hobi seharga 60 dolar per bulan, jadi makin sulit dipertahankan. Kalau nanti dukungan bertambah, mungkin saya akan memasang solusi pertahanan bot dan membukanya lagi
  Tapi saya kaget mengetahui bahwa masalah ini bukan cuma saya yang mengalaminya. Rasanya internet makin bergerak ke arah yang lebih tertutup
- Saya penasaran apakah ada cara memberi tahu lewat robots.txt, “ambil file tar dari sini”
  Saya tidak tahu apakah ada fitur seperti itu dalam standarnya
- Jika bot memakai torrent, manipulasi statistik seeding juga mungkin terjadi
  Dulu saya juga pernah menggelembungkan rasio upload agar tidak dibuang dari tracker pribadi
- Fakta bahwa bot menganggap situs sebagai pihak yang bermusuhan adalah masalah serius
  Mengabaikan kehendak pemilik situs adalah pendekatan yang salah
- Sebenarnya sebagian besar “scraper AI” hanyalah skrip crawler rekursif sederhana
  Bukan AI sungguhan yang membaca halaman lalu memutuskan, melainkan sekadar kode otomatis yang mengikuti tautan dan mengeruk dokumen
AI sedang merusak ekosistem web yang bebas
Web host saya tiba-tiba menangguhkan akun karena lonjakan trafik bot
Akhirnya saya pindah ke host baru, tetapi operator individu tidak punya harapan dalam situasi seperti ini
Perusahaan AI punya sumber daya tak terbatas dan tidak peduli pada dampak kerusakannya
Jika dilihat secara sinis, ini mungkin strategi yang disengaja — menghilangkan situs gratis agar orang pada akhirnya hanya mendapatkan informasi lewat model AI
- Layanan ringkasan AI sedang merampas lebih dari separuh trafik web independen
  Nilai ekonomis berbagi informasi sedang runtuh
  Pada akhirnya segelintir perusahaan akan memonopoli nilainya, lalu enshittification akan dimulai
Saya mengelola situs PTA sekolah anak saya, dan bot OpenAI mengeruk kalender acara secara acak
Permintaan terus datang untuk tahun 1000 sampai 3000
Setelah User-Agent diblokir, barulah berhenti sekitar 4 jam kemudian
Saya menjalankan situs web statis dan instance cgit di VPS Google Cloud e2-micro
Dalam 160 hari, saya menerima lebih dari 8,5 juta request dari OpenAI dan Claude
Jadi saya mengatur lighttpd agar mengembalikan 403 jika User-Agent mengandung “claude|openai”, dan menerapkan rate limiting dengan nftables
- Bot seperti ini justru masih termasuk yang “punya hati nurani”
  Masalah sebenarnya adalah botnet yang memakai proxy residensial. Mereka masuk sambil berpura-pura sebagai browser biasa
- OpenAI mempublikasikan daftar IP bot resminya, tetapi Anthropic tidak
- Menariknya, blog GitHub saya sama sekali tidak mengalami scraping semacam ini
  Saya jadi bertanya-tanya apakah Microsoft yang memblokirnya, atau blog saya memang berada di level yang tidak menarik bagi bot
Cloudflare sekarang menyediakan layanan deteksi scraper AI
Bot yang terdeteksi diarahkan ke halaman buatan AI dengan loop tak berujung
- Tetapi untuk melakukan ini, semua trafik harus melewati Cloudflare
  Pada akhirnya jadi terasa tidak nyaman karena pihak ketiga yang menentukan hak akses ke konten saya
- Cloudflare sering menyebabkan masalah akses bagi pengguna VPN dan browser yang langka
  Saya juga sangat tidak puas sampai akhirnya menghapusnya
- Menurut saya itu tidak cocok sebagai “layanan penambahan dan penghapusan TLS”
- Sebagai ide terkait, ada proyek Poison Fountain
- Jika Cloudflare berhasil menguasai cukup banyak situs, mereka bahkan bisa mengenakan biaya akses cache kepada perusahaan AI
Tim SQLite juga mengalami masalah serupa
Sang pendiri Richard Hipp mengkritiknya sebagai ‘tindakan egois’, dengan mengatakan, “cukup clone seluruh repositori saja, tidak perlu mengeruk sambil merugikan orang lain”
Lihat posting forum terkait
- Tetapi ada juga yang membantah dengan mengatakan, “menyebutnya berniat jahat itu terlalu berlebihan”
Semakin lama, saya makin merasa semua crawling perlu disatukan lewat saluran publik bersama seperti Common Crawl
Beban server harus dikurangi sambil tetap menjaga keterbukaan web dan kemampuan scraping
Misalnya, bisa distandardisasi dengan menaruh tautan dump data bertimestamp di bawah path /well-known/
- MetaBrainz sudah memakai pendekatan seperti ini — seluruh DB disediakan dalam bentuk tarball
  Saya juga mengunduhnya sekitar satu jam, lalu setelah itu cukup memakai query lokal
  Tetapi kebanyakan orang tetap tidak memakai dump karena scraping masih lebih mudah
- Saya rasa kita perlu reformasi sistem hak cipta
  Saya mengusulkan struktur di mana setelah jangka waktu tertentu, data disumbangkan ke “dataset nasional”, lalu dipakai untuk pelatihan AI dan keuntungannya dibagikan kepada pemegang hak cipta
  Dengan begitu pengembang AI, pemegang hak cipta, dan publik semuanya bisa diuntungkan
- Saya sendiri juga melakukan scraping skala kecil dengan skrip Tampermonkey
  Saya memakai AI untuk menghasilkan kode dan mengumpulkan hal-hal seperti daftar harga VPS secara otomatis
  Dulu saya juga pernah mengeruk semua headline lowendtalk dan menjadikannya dataset untuk analisis LLM
- Mungkin juga bisa dibuat file standar seperti /llms.txt, yang hanya menyediakan data teks murni yang dibutuhkan LLM
  URL, alamat, nomor telepon, dan semacamnya dihapus, lalu hanya markup minimum seperti <item> dan <subitem> yang dipertahankan
  Namun kemungkinan banyak situs hanya akan menaruh file kosong yang sekadar memenuhi format
- Sebenarnya ini bukan masalah teknis, melainkan masalah struktur ekonomi
  Modal besar sedang merusak web demi keuntungan jangka pendek
  Tetapi saya percaya pada akhirnya akan muncul adaptasi dan keseimbangan
Belakangan ini bukan hanya scraper AI, tetapi pengguna sendiri melakukan scraping tidak langsung lewat permintaan ringkasan
Misalnya, Firefox menyediakan pratinjau ringkasan tanpa harus mengklik tautan
Gambar terkait
- Fitur ini menghasilkan ringkasan dengan model SmolLM2-360M yang berjalan secara lokal dengan llama.cpp (wllama)
  Pada akhirnya browser mengambil halaman secara langsung dan merangkumnya, jadi dari sisi situs terlihat sebagai request yang sama
  Lihat penjelasan resmi Mozilla
- Masalahnya ada tiga
  1. Crawling tidak etis oleh perusahaan AI
  2. Permintaan ringkasan berbasis agen oleh pengguna
  3. Agen seperti ini lebih tidak efisien daripada manusia tetapi jauh lebih cepat
- Namun pengguna bukan “terlatih” untuk memakainya, mereka memakainya hanya karena LLM memang bekerja sangat baik
Scraper sekarang menghindari deteksi dengan memakai pool IP residensial
- Saya curiga ISP yang menyediakan pool IP seperti ini mungkin telah menciptakan model bisnis baru
- Selain itu, sekarang semakin banyak bot yang menjalankan browser sungguhan, sehingga bahkan bisa lolos dari captcha Cloudflare
  Dalam situasi seperti ini, saya tidak tahu berapa lama lagi langkah pertahanan akan tetap efektif

Mengapa layanan bagus tidak bisa dipertahankan karena scraper AI

Masalah kelebihan beban server akibat scraper AI

Langkah perlindungan API ListenBrainz

Respons darurat untuk menjaga stabilitas layanan

Reaksi komunitas

Makna keseluruhan

Bacaan terkait

1 komentar

Komentar Hacker News