14 poin oleh GN⁺ 2024-12-31 | 1 komentar | Bagikan ke WhatsApp
  • Analisis terbaru terhadap masalah lonjakan beban dan perlambatan pada infrastruktur web proyek diaspora (Discourse, Wiki, situs web proyek, dll.) menunjukkan bahwa "sebagian besar trafik disebabkan oleh bot perayap LLM"
  • Selama 60 hari terakhir, tercatat 11,3 juta permintaan (rata-rata 2,19 req/s), dan lebih dari 70% di antaranya berasal dari bot perayap terkait LLM
    • GPTBot/1.2: 24.6% (2,78 juta permintaan)
    • Amazonbot/0.1: 14.9% (1,69 juta permintaan)
    • ClaudeBot/1.0: 4.3% (490 ribu permintaan)
    • meta-externalagent/1.1: 2.2% (220 ribu permintaan)
  • Pola perayapan yang tidak normal
    • Perayapan berulang: halaman yang sama dirayapi setiap 6 jam
    • Mengabaikan robots.txt: sama sekali tidak mematuhi aturan pembatasan perayapan
    • Perayapan tidak efisien: merayapi data yang tidak bermakna dalam jumlah besar (misalnya seluruh riwayat edit Wiki)
    • Lonjakan beban: pada waktu tertentu menghasilkan lebih dari 10 req/s sehingga membebani database dan server MediaWiki
  • Hampir tidak bisa dipertahankan
    • Perubahan IP: terus mengganti IP untuk menghindari rate limit
    • Perubahan string UA: mengubah user agent bot menjadi string arbitrer untuk menghindari pemblokiran
  • Perayap mesin pencari lama seperti Googlebot dan Bingbot menunjukkan pola perayapan yang normal dan efisien.
    • Googlebot: 0.14% (16.600 permintaan)
    • Bingbot: 0.14% (15.900 permintaan)
  • Meminimalkan perayapan duplikat dan mematuhi aturan robots.txt

Hasil dan dampak

  • Tidak dapat memberikan layanan secara efektif: pengalaman pengguna manusia memburuk drastis akibat bot perayap LLM
  • Kelebihan beban server: server database dan MediaWiki berulang kali mengalami lonjakan beban
  • Secara de facto DDoS terhadap seluruh internet: cara perayapan seperti ini menyebabkan pemborosan sumber daya yang tidak perlu secara global

Kesimpulan

  • Infrastruktur terus terbebani oleh pola trafik tidak normal dari bot perayap LLM, dan upaya untuk menahannya tidak menunjukkan hasil yang efektif
  • Masalah ini melampaui kelelahan pribadi dan berdampak serius pada seluruh ekosistem internet

1 komentar

 
GN⁺ 2024-12-31
Opini Hacker News
  • Membagikan pengalaman ketika bot AI milik Meta merayapi situs web secara berlebihan hingga server sempat down. Menjelaskan cara memblokirnya dengan menggunakan Cloudflare

    • Menyebut fitur pemblokiran bot AI milik Cloudflare berguna
    • Berpendapat bahwa akses bot AI ke konten tidak memberikan nilai
  • Membagikan data trafik bot yang muncul di berbagai platform

    • Bot dari Claude, Amazon, Data For SEO, Chat GPT, dan lainnya menghasilkan banyak trafik
    • Menjelaskan bahwa bot-bot ini mengabaikan robots.txt atau tidak melakukan backoff meski terjadi penundaan
  • Mendiskusikan cara memblokir bot

    • Menjelaskan perilaku bot yang mengganti IP atau beralih ke User Agent non-bot
    • Membagikan tautan GitHub yang memublikasikan rentang IP OpenAI
    • Mengusulkan cara memblokir bot AI dengan menggunakan plugin WordPress
  • Menyebut kasus forum CGTalk yang ditutup karena masalah sumber daya

    • Banyak forum berpindah ke Slack dan Discord untuk mengurangi beban operasional server
  • Berpendapat bahwa perusahaan AI seharusnya melakukan scraping dengan lebih cerdas

    • Menyebut perilaku perusahaan AI sebagai sesuatu yang memalukan
  • Mengungkapkan rasa ingin tahu tentang serangan poisoning

    • Mengeksplorasi kemungkinan membingungkan model AI dengan konten salah yang ditulis manusia
  • Membagikan pengalaman biaya aplikasi yang di-deploy ke GCP meningkat karena trafik bot

    • Menduga penyebabnya adalah aplikasi tersebut dibagikan di Reddit
  • Membagikan pengalaman crawling pada forum besar

    • Menyebut bahwa ChatGPT sangat mengetahui sejarah forum tersebut
    • Mengusulkan ide menambahkan teks yang dapat memengaruhi LLMs
  • Berpendapat bahwa perilaku bot yang mengabaikan robots.txt dan berdampak buruk pada layanan dapat dianggap ilegal

    • Merekomendasikan untuk menghubungi otoritas penegak hukum siber setempat