- Belakangan ini, server MetaBrainz mengalami kelebihan beban akibat pengumpulan data tanpa izin oleh perusahaan AI
- Mereka mengabaikan aturan robots.txt dan merayapi data MusicBrainz per halaman, sebuah cara yang sangat tidak efisien dan bisa memakan waktu ratusan tahun
- Perilaku yang sama juga menyebar ke API ListenBrainz, sehingga untuk melindungi layanan diterapkan persyaratan token autentikasi dan penutupan sebagian API
- LB Radio kini hanya dapat digunakan oleh pengguna yang login, dan pemanggilan API juga memerlukan header Authorization
- Langkah-langkah ini dijelaskan sebagai respons wajib untuk menjaga akses bagi pengguna normal
Masalah kelebihan beban server akibat scraper AI
- Tim MetaBrainz dalam beberapa bulan terakhir menangani crawling tanpa izin untuk pengumpulan data pelatihan model AI
- Sejumlah perusahaan AI mengabaikan etika dasar internet seperti robots.txt lalu mengambil data
- Mereka mengakses data MusicBrainz dengan cara meminta satu halaman demi satu halaman, yang lebih tidak efisien daripada unduhan penuh dan menyebabkan beban server
- Pendekatan ini memiliki tingkat ketidakefisienan yang bisa memakan ratusan tahun, dan pada akhirnya mengganggu akses pengguna normal
Langkah perlindungan API ListenBrainz
- Scraper AI mencoba mengumpulkan data dari berbagai endpoint API ListenBrainz
- Karena itu, perubahan berikut diterapkan:
- API
/metadata/lookup (GET dan POST) hanya berfungsi jika ada token Authorization
- Endpoint
mbid-mapping, mbid-mapping-release, dan mbid-mapping-explain di ListenBrainz Labs API dihapus
- API tersebut awalnya disediakan untuk debugging, dan nantinya akan diganti dengan endpoint untuk mapper baru
- LB Radio hanya dapat digunakan oleh pengguna yang login, dan pemanggilan API memerlukan header Authorization
Respons darurat untuk menjaga stabilitas layanan
- MetaBrainz menyatakan bahwa langkah kali ini merupakan keputusan yang tak terhindarkan untuk mencegah kelebihan beban layanan dan menjaga operasi normal
- Mereka meminta maaf atas ketidaknyamanan akibat perubahan tanpa pemberitahuan sebelumnya, dan berencana memperbaiki pesan error setelah proyek akhir tahun selesai
Reaksi komunitas
- Di kolom komentar, diskusi berlanjut mengenai cara kerja scraper AI yang tidak efisien dan struktur web spider otomatis
- Sebagian pengguna menunjukkan “ketidakmampuan para pekerja AI”
- Pengguna lain menjelaskan bahwa “crawler otomatis hanya mengikuti tautan dan mengumpulkan data”
Makna keseluruhan
- Langkah MetaBrainz menunjukkan contoh kerugian pada proyek data terbuka akibat pengumpulan data oleh AI
- Demi keberlanjutan API publik, penguatan autentikasi dan pembatasan akses menjadi makin tak terhindarkan
1 komentar
Komentar Hacker News
Metabrainz benar-benar merupakan basis data kepentingan publik yang luar biasa
Dulu saya pernah menulis tentang topik ini di blog EFF
Data publik seperti milik Metabrainz tidak masalah jika diambil oleh bot AI, tetapi masalahnya adalah mereka mengeruknya dengan cara yang tidak efisien seperti sekarang
Pada akhirnya ini adalah masalah kegagalan koordinasi. Metabrainz berasumsi bot bertindak dengan itikad baik, tetapi bot mengira situs menyembunyikan data
Bahkan jika diberi tahu, “berhentilah memukul API, unduh saja file tar.gz ini sekaligus,” mereka tetap tidak percaya
Bahkan mungkin akan lebih baik jika disediakan sebagai file torrent agar bot bisa berbagi data dengan lebih baik
Sudah saya buka sejak 2016, tetapi konsumsi resource-nya terlalu besar sehingga sekarang hanya tersedia untuk pendukung
Ini proyek hobi seharga 60 dolar per bulan, jadi makin sulit dipertahankan. Kalau nanti dukungan bertambah, mungkin saya akan memasang solusi pertahanan bot dan membukanya lagi
Tapi saya kaget mengetahui bahwa masalah ini bukan cuma saya yang mengalaminya. Rasanya internet makin bergerak ke arah yang lebih tertutup
Saya tidak tahu apakah ada fitur seperti itu dalam standarnya
Dulu saya juga pernah menggelembungkan rasio upload agar tidak dibuang dari tracker pribadi
Mengabaikan kehendak pemilik situs adalah pendekatan yang salah
Bukan AI sungguhan yang membaca halaman lalu memutuskan, melainkan sekadar kode otomatis yang mengikuti tautan dan mengeruk dokumen
AI sedang merusak ekosistem web yang bebas
Web host saya tiba-tiba menangguhkan akun karena lonjakan trafik bot
Akhirnya saya pindah ke host baru, tetapi operator individu tidak punya harapan dalam situasi seperti ini
Perusahaan AI punya sumber daya tak terbatas dan tidak peduli pada dampak kerusakannya
Jika dilihat secara sinis, ini mungkin strategi yang disengaja — menghilangkan situs gratis agar orang pada akhirnya hanya mendapatkan informasi lewat model AI
Nilai ekonomis berbagi informasi sedang runtuh
Pada akhirnya segelintir perusahaan akan memonopoli nilainya, lalu enshittification akan dimulai
Saya mengelola situs PTA sekolah anak saya, dan bot OpenAI mengeruk kalender acara secara acak
Permintaan terus datang untuk tahun 1000 sampai 3000
Setelah User-Agent diblokir, barulah berhenti sekitar 4 jam kemudian
Saya menjalankan situs web statis dan instance cgit di VPS Google Cloud e2-micro
Dalam 160 hari, saya menerima lebih dari 8,5 juta request dari OpenAI dan Claude
Jadi saya mengatur lighttpd agar mengembalikan 403 jika User-Agent mengandung “claude|openai”, dan menerapkan rate limiting dengan nftables
Masalah sebenarnya adalah botnet yang memakai proxy residensial. Mereka masuk sambil berpura-pura sebagai browser biasa
Saya jadi bertanya-tanya apakah Microsoft yang memblokirnya, atau blog saya memang berada di level yang tidak menarik bagi bot
Cloudflare sekarang menyediakan layanan deteksi scraper AI
Bot yang terdeteksi diarahkan ke halaman buatan AI dengan loop tak berujung
Pada akhirnya jadi terasa tidak nyaman karena pihak ketiga yang menentukan hak akses ke konten saya
Saya juga sangat tidak puas sampai akhirnya menghapusnya
Tim SQLite juga mengalami masalah serupa
Sang pendiri Richard Hipp mengkritiknya sebagai ‘tindakan egois’, dengan mengatakan, “cukup clone seluruh repositori saja, tidak perlu mengeruk sambil merugikan orang lain”
Lihat posting forum terkait
Semakin lama, saya makin merasa semua crawling perlu disatukan lewat saluran publik bersama seperti Common Crawl
Beban server harus dikurangi sambil tetap menjaga keterbukaan web dan kemampuan scraping
Misalnya, bisa distandardisasi dengan menaruh tautan dump data bertimestamp di bawah path
/well-known/Saya juga mengunduhnya sekitar satu jam, lalu setelah itu cukup memakai query lokal
Tetapi kebanyakan orang tetap tidak memakai dump karena scraping masih lebih mudah
Saya mengusulkan struktur di mana setelah jangka waktu tertentu, data disumbangkan ke “dataset nasional”, lalu dipakai untuk pelatihan AI dan keuntungannya dibagikan kepada pemegang hak cipta
Dengan begitu pengembang AI, pemegang hak cipta, dan publik semuanya bisa diuntungkan
Saya memakai AI untuk menghasilkan kode dan mengumpulkan hal-hal seperti daftar harga VPS secara otomatis
Dulu saya juga pernah mengeruk semua headline lowendtalk dan menjadikannya dataset untuk analisis LLM
/llms.txt, yang hanya menyediakan data teks murni yang dibutuhkan LLMURL, alamat, nomor telepon, dan semacamnya dihapus, lalu hanya markup minimum seperti
<item>dan<subitem>yang dipertahankanNamun kemungkinan banyak situs hanya akan menaruh file kosong yang sekadar memenuhi format
Modal besar sedang merusak web demi keuntungan jangka pendek
Tetapi saya percaya pada akhirnya akan muncul adaptasi dan keseimbangan
Belakangan ini bukan hanya scraper AI, tetapi pengguna sendiri melakukan scraping tidak langsung lewat permintaan ringkasan
Misalnya, Firefox menyediakan pratinjau ringkasan tanpa harus mengklik tautan
Gambar terkait
Pada akhirnya browser mengambil halaman secara langsung dan merangkumnya, jadi dari sisi situs terlihat sebagai request yang sama
Lihat penjelasan resmi Mozilla
Scraper sekarang menghindari deteksi dengan memakai pool IP residensial
Dalam situasi seperti ini, saya tidak tahu berapa lama lagi langkah pertahanan akan tetap efektif