Perusahaan AI sedang menghasilkan sebagian besar trafik web
(pod.geraspora.de)- Analisis terbaru terhadap masalah lonjakan beban dan perlambatan pada infrastruktur web proyek diaspora (Discourse, Wiki, situs web proyek, dll.) menunjukkan bahwa "sebagian besar trafik disebabkan oleh bot perayap LLM"
- Selama 60 hari terakhir, tercatat 11,3 juta permintaan (rata-rata 2,19 req/s), dan lebih dari 70% di antaranya berasal dari bot perayap terkait LLM
- GPTBot/1.2: 24.6% (2,78 juta permintaan)
- Amazonbot/0.1: 14.9% (1,69 juta permintaan)
- ClaudeBot/1.0: 4.3% (490 ribu permintaan)
- meta-externalagent/1.1: 2.2% (220 ribu permintaan)
- Pola perayapan yang tidak normal
- Perayapan berulang: halaman yang sama dirayapi setiap 6 jam
- Mengabaikan robots.txt: sama sekali tidak mematuhi aturan pembatasan perayapan
- Perayapan tidak efisien: merayapi data yang tidak bermakna dalam jumlah besar (misalnya seluruh riwayat edit Wiki)
- Lonjakan beban: pada waktu tertentu menghasilkan lebih dari 10 req/s sehingga membebani database dan server MediaWiki
- Hampir tidak bisa dipertahankan
- Perubahan IP: terus mengganti IP untuk menghindari rate limit
- Perubahan string UA: mengubah user agent bot menjadi string arbitrer untuk menghindari pemblokiran
- Perayap mesin pencari lama seperti Googlebot dan Bingbot menunjukkan pola perayapan yang normal dan efisien.
- Googlebot: 0.14% (16.600 permintaan)
- Bingbot: 0.14% (15.900 permintaan)
- Meminimalkan perayapan duplikat dan mematuhi aturan robots.txt
Hasil dan dampak
- Tidak dapat memberikan layanan secara efektif: pengalaman pengguna manusia memburuk drastis akibat bot perayap LLM
- Kelebihan beban server: server database dan MediaWiki berulang kali mengalami lonjakan beban
- Secara de facto DDoS terhadap seluruh internet: cara perayapan seperti ini menyebabkan pemborosan sumber daya yang tidak perlu secara global
Kesimpulan
- Infrastruktur terus terbebani oleh pola trafik tidak normal dari bot perayap LLM, dan upaya untuk menahannya tidak menunjukkan hasil yang efektif
- Masalah ini melampaui kelelahan pribadi dan berdampak serius pada seluruh ekosistem internet
1 komentar
Opini Hacker News
Membagikan pengalaman ketika bot AI milik Meta merayapi situs web secara berlebihan hingga server sempat down. Menjelaskan cara memblokirnya dengan menggunakan Cloudflare
Membagikan data trafik bot yang muncul di berbagai platform
robots.txtatau tidak melakukan backoff meski terjadi penundaanMendiskusikan cara memblokir bot
Menyebut kasus forum CGTalk yang ditutup karena masalah sumber daya
Berpendapat bahwa perusahaan AI seharusnya melakukan scraping dengan lebih cerdas
Mengungkapkan rasa ingin tahu tentang serangan poisoning
Membagikan pengalaman biaya aplikasi yang di-deploy ke GCP meningkat karena trafik bot
Membagikan pengalaman crawling pada forum besar
Berpendapat bahwa perilaku bot yang mengabaikan
robots.txtdan berdampak buruk pada layanan dapat dianggap ilegal