- Crawler AI memicu trafik berlebihan ke situs proyek open source hingga menyebabkan kerusakan nyata pada tingkat nyaris melumpuhkan layanan
- Crawler AI mengabaikan
robots.txt, memalsukan User-Agent, dan melewati IP berbasis lokasi tempat tinggal sehingga dapat menghindari sistem pertahanan yang ada
- Untuk menghentikannya, pengembang Xe Iaso memindahkan server ke belakang VPN dan menerapkan sistem berbasis pembuktian bernama 'Anubis' yang mengharuskan pengguna menyelesaikan teka-teki sebelum bisa mengakses
- Menurut LibreNews, pada beberapa proyek, 97% dari seluruh trafik berasal dari crawler AI
- Proyek terkenal seperti Fedora, GNOME, dan KDE juga merespons dengan pemblokiran per negara, penerapan Anubis, hingga shutdown sementara
Kasus kerusakan nyata dan akses crawler AI yang tak terkendali
- Di GitLab GNOME, dari 84.056 akses hanya 3,2% yang lolos Anubis → mayoritas diduga merupakan crawling tidak normal
- KDE mengalami infrastruktur GitLab yang sempat lumpuh akibat trafik dari IP Alibaba
- Sebagian pengguna seluler bahkan membutuhkan lebih dari 2 menit untuk memuat teka-teki
- Dennis Schubert, penanggung jawab pemeliharaan infrastruktur Diaspora, menyebut trafik crawler AI sebagai "DDoS terhadap seluruh internet"
- Read the Docs mencatat trafik turun dari 800GB menjadi 200GB per hari setelah memblokir crawler AI, menghemat sekitar $1.500 per bulan
Beban yang tidak seimbang dan terpusat pada proyek open source
- Open source dijalankan dengan sumber daya terbatas dan berbasis kolaborasi terbuka
- Banyak crawler mengabaikan
robots.txt, memalsukan User-Agent, dan terus mengganti IP saat mengakses
- Martin Owens dari Inkscape mengatakan mereka harus memelihara daftar blokir besar karena perusahaan AI memalsukan informasi browser
- Di Hacker News, kemarahan meluas terhadap kekuatan modal perusahaan AI dan sikap mereka yang tidak kooperatif
- Drew DeVault dari SourceHut mengatakan crawler mengakses semua halaman log git hingga commit, sehingga memicu konsumsi sumber daya berlebihan
- Proyek Curl melaporkan kasus menerima laporan bug palsu yang dibuat AI
Tujuan crawler AI dan pola perilaku tiap perusahaan
- Crawler AI digunakan untuk berbagai tujuan, mulai dari pengumpulan data pelatihan hingga pencarian real-time untuk jawaban AI
- Hasil analisis Diaspora: OpenAI menyumbang 25%, Amazon 15%, dan Anthropic 4,3% dari trafik
- Crawler secara berkala merayapi halaman yang sama berulang kali, misalnya setiap 6 jam
- OpenAI dan Anthropic relatif menggunakan User-Agent yang normal, sementara sebagian perusahaan AI Tiongkok menunjukkan tingkat penyamaran yang lebih tinggi
- Amazon dan Alibaba juga muncul dalam kasus kerusakan, tetapi kedua perusahaan itu belum memberi pernyataan resmi
Langkah respons: tarpit, teka-teki, dan cara kolaboratif
- Alat bernama "Nepenthes" adalah sarana pertahanan agresif yang menjebak crawler AI ke labirin konten palsu tanpa akhir
- Pembuatnya, Aaron, mengklaim alat ini meningkatkan biaya crawler dan mendorong kontaminasi data pelatihan
- Cloudflare memperkenalkan fitur keamanan komersial 'AI Labyrinth', yang mengarahkan crawler untuk menjelajahi halaman tidak bermakna
- Lebih dari 50 miliar permintaan crawling AI per hari muncul di jaringan Cloudflare
- Proyek open source "ai.robots.txt" menyediakan daftar crawler AI serta file robots.txt / .htaccess untuk pemblokiran
Pengumpulan data AI yang terus berlanjut dan krisis web terbuka
- Perusahaan AI yang terus mengumpulkan data dalam jumlah besar tanpa regulasi menimbulkan ancaman serius bagi infrastruktur open source
- Muncul kritik bahwa AI sedang merusak sendiri ekosistem digital yang menjadi sandarannya
- Sistem pengumpulan data yang kolaboratif bisa menjadi alternatif, tetapi perusahaan AI besar kurang menunjukkan kemauan untuk bekerja sama secara sukarela
- Tanpa regulasi yang berarti atau rasa tanggung jawab mandiri, benturan antara AI dan open source kemungkinan akan makin memburuk
1 komentar
Komentar Hacker News
Tujuannya adalah membuat bot mendapatkan utilitas negatif dari kunjungan ke situs web. Ini lebih efektif daripada sekadar memblokir
Tidak jelas mengapa perusahaan tidak mengambil pendekatan yang lebih kooperatif. Setidaknya mereka harus membatasi laju pengumpulan data agar tidak membanjiri situs sumber
Menurut saya, akses ke sumber daya perlu memakai mikrotransaksi. Bayar sedikit ke server lalu kontennya dikembalikan. Jika crawler mendominasi trafik, berarti mereka juga membayar biayanya
Setelah membuka sugaku.net agar bisa digunakan tanpa login, crawler segera mulai berdatangan. Saya ingin situs itu bisa diakses semua orang, tetapi akhirnya harus membatasi sebagian besar fitur dinamis hanya untuk pengguna yang login. Saya sudah membatasi lewat robots.txt dan memakai Cloudflare untuk memblokir crawler AI dan bot jahat, tetapi masih menerima sekitar 1 juta permintaan otomatis per hari. Sepertinya sebentar lagi saya harus membatasi situs hanya untuk pengguna yang login
Baru-baru ini saya memulai proyek sampingan dengan pendekatan "code everything in prod". Saya sudah beberapa kali melakukannya selama 20 tahun terakhir, tetapi kali ini berbeda. Saya tidak mengiklankan hostname itu di mana pun, tetapi dalam waktu kurang dari 24 jam sudah ada banyak kiriman formulir spam. Saya menduga ini akan terjadi setelah sedikit promosi, tetapi tidak menyangka bot langsung berinteraksi begitu server dijalankan
Masalahnya bukan menghentikan orang lain menyalin berkas dengan Lynx atau curl, melainkan mencegah server kelebihan beban karena perangkat lunak yang buruk
Saya kena serangan DoS dari ClaudeBot (Anthropic). Bot itu menghantam situs web 700 ribu kali per bulan dan melampaui batas bandwidth dari penyedia hosting. Memblokir user-agent dan bekerja sama dengan dukungan penyedia hosting untuk mencabut pembatasan sangat merepotkan
Langkah "anti-bot" yang berpusat pada JS makin memperkuat monopoli browser. Sebagai gantinya, saya merekomendasikan formulir HTML sederhana yang menanyakan hal-hal yang belum bisa dipecahkan LLM atau yang masih sering dijawab salah. Lebih baik lagi jika pertanyaannya terkait dengan konten situs. Di forum elektronik, saya pernah memakai pertanyaan "tes teknis" serupa pada formulir pendaftaran; beberapa bisa diselesaikan dengan LLM, tetapi tetap merupakan CAPTCHA yang hanya bisa dipecahkan manusia
Membanjiri situs web dengan spam jelas perilaku buruk. Namun, jika memblokir crawler AI, pada akhirnya Anda akan dirugikan. Coba tebak apa yang akan menggantikan SEO dalam jangka panjang
Saya mengelola beberapa situs konten, dan dalam beberapa hari terakhir menutup beberapa di antaranya karena bot AI yang agresif. Alexa tampaknya yang paling parah