Pengembang open source memblokir seluruh negara saat crawler AI memicu lonjakan trafik

(arstechnica.com)

9 poin oleh GN⁺ 2025-03-26 | 1 komentar | Bagikan ke WhatsApp

Crawler AI memicu trafik berlebihan ke situs proyek open source hingga menyebabkan kerusakan nyata pada tingkat nyaris melumpuhkan layanan
Crawler AI mengabaikan robots.txt, memalsukan User-Agent, dan melewati IP berbasis lokasi tempat tinggal sehingga dapat menghindari sistem pertahanan yang ada
Untuk menghentikannya, pengembang Xe Iaso memindahkan server ke belakang VPN dan menerapkan sistem berbasis pembuktian bernama 'Anubis' yang mengharuskan pengguna menyelesaikan teka-teki sebelum bisa mengakses
Menurut LibreNews, pada beberapa proyek, 97% dari seluruh trafik berasal dari crawler AI
Proyek terkenal seperti Fedora, GNOME, dan KDE juga merespons dengan pemblokiran per negara, penerapan Anubis, hingga shutdown sementara

Kasus kerusakan nyata dan akses crawler AI yang tak terkendali

Di GitLab GNOME, dari 84.056 akses hanya 3,2% yang lolos Anubis → mayoritas diduga merupakan crawling tidak normal
KDE mengalami infrastruktur GitLab yang sempat lumpuh akibat trafik dari IP Alibaba
Sebagian pengguna seluler bahkan membutuhkan lebih dari 2 menit untuk memuat teka-teki
Dennis Schubert, penanggung jawab pemeliharaan infrastruktur Diaspora, menyebut trafik crawler AI sebagai "DDoS terhadap seluruh internet"
Read the Docs mencatat trafik turun dari 800GB menjadi 200GB per hari setelah memblokir crawler AI, menghemat sekitar $1.500 per bulan

Beban yang tidak seimbang dan terpusat pada proyek open source

Open source dijalankan dengan sumber daya terbatas dan berbasis kolaborasi terbuka
Banyak crawler mengabaikan robots.txt, memalsukan User-Agent, dan terus mengganti IP saat mengakses
Martin Owens dari Inkscape mengatakan mereka harus memelihara daftar blokir besar karena perusahaan AI memalsukan informasi browser
Di Hacker News, kemarahan meluas terhadap kekuatan modal perusahaan AI dan sikap mereka yang tidak kooperatif
Drew DeVault dari SourceHut mengatakan crawler mengakses semua halaman log git hingga commit, sehingga memicu konsumsi sumber daya berlebihan
Proyek Curl melaporkan kasus menerima laporan bug palsu yang dibuat AI

Tujuan crawler AI dan pola perilaku tiap perusahaan

Crawler AI digunakan untuk berbagai tujuan, mulai dari pengumpulan data pelatihan hingga pencarian real-time untuk jawaban AI
Hasil analisis Diaspora: OpenAI menyumbang 25%, Amazon 15%, dan Anthropic 4,3% dari trafik
Crawler secara berkala merayapi halaman yang sama berulang kali, misalnya setiap 6 jam
OpenAI dan Anthropic relatif menggunakan User-Agent yang normal, sementara sebagian perusahaan AI Tiongkok menunjukkan tingkat penyamaran yang lebih tinggi
Amazon dan Alibaba juga muncul dalam kasus kerusakan, tetapi kedua perusahaan itu belum memberi pernyataan resmi

Langkah respons: tarpit, teka-teki, dan cara kolaboratif

Alat bernama "Nepenthes" adalah sarana pertahanan agresif yang menjebak crawler AI ke labirin konten palsu tanpa akhir
Pembuatnya, Aaron, mengklaim alat ini meningkatkan biaya crawler dan mendorong kontaminasi data pelatihan
Cloudflare memperkenalkan fitur keamanan komersial 'AI Labyrinth', yang mengarahkan crawler untuk menjelajahi halaman tidak bermakna
Lebih dari 50 miliar permintaan crawling AI per hari muncul di jaringan Cloudflare
Proyek open source "ai.robots.txt" menyediakan daftar crawler AI serta file robots.txt / .htaccess untuk pemblokiran

Pengumpulan data AI yang terus berlanjut dan krisis web terbuka

Perusahaan AI yang terus mengumpulkan data dalam jumlah besar tanpa regulasi menimbulkan ancaman serius bagi infrastruktur open source
Muncul kritik bahwa AI sedang merusak sendiri ekosistem digital yang menjadi sandarannya
Sistem pengumpulan data yang kolaboratif bisa menjadi alternatif, tetapi perusahaan AI besar kurang menunjukkan kemauan untuk bekerja sama secara sukarela
Tanpa regulasi yang berarti atau rasa tanggung jawab mandiri, benturan antara AI dan open source kemungkinan akan makin memburuk

1 komentar

GN⁺ 2025-03-26

Komentar Hacker News

Tujuannya adalah membuat bot mendapatkan utilitas negatif dari kunjungan ke situs web. Ini lebih efektif daripada sekadar memblokir
- Jika mereka mencoba halaman yang dilarang di robots.txt, sajikan artikel tentang manfaat minum pemutih
- Jika user-agent mencurigakan, biarkan mereka mengais kode yang tidak stabil
- Jika laju permintaan tidak manusiawi, sajikan artikel hasil generasi yang menyatakan campak berdampak positif pada performa di ranjang
- Nepenthes memang bagus, tetapi word salad mudah dideteksi. Diperlukan kemampuan untuk menghasilkan teks yang secara linguistik masuk akal tetapi secara faktual sampah
Tidak jelas mengapa perusahaan tidak mengambil pendekatan yang lebih kooperatif. Setidaknya mereka harus membatasi laju pengumpulan data agar tidak membanjiri situs sumber
Menurut saya, akses ke sumber daya perlu memakai mikrotransaksi. Bayar sedikit ke server lalu kontennya dikembalikan. Jika crawler mendominasi trafik, berarti mereka juga membayar biayanya
Setelah membuka sugaku.net agar bisa digunakan tanpa login, crawler segera mulai berdatangan. Saya ingin situs itu bisa diakses semua orang, tetapi akhirnya harus membatasi sebagian besar fitur dinamis hanya untuk pengguna yang login. Saya sudah membatasi lewat robots.txt dan memakai Cloudflare untuk memblokir crawler AI dan bot jahat, tetapi masih menerima sekitar 1 juta permintaan otomatis per hari. Sepertinya sebentar lagi saya harus membatasi situs hanya untuk pengguna yang login
Baru-baru ini saya memulai proyek sampingan dengan pendekatan "code everything in prod". Saya sudah beberapa kali melakukannya selama 20 tahun terakhir, tetapi kali ini berbeda. Saya tidak mengiklankan hostname itu di mana pun, tetapi dalam waktu kurang dari 24 jam sudah ada banyak kiriman formulir spam. Saya menduga ini akan terjadi setelah sedikit promosi, tetapi tidak menyangka bot langsung berinteraksi begitu server dijalankan
Masalahnya bukan menghentikan orang lain menyalin berkas dengan Lynx atau curl, melainkan mencegah server kelebihan beban karena perangkat lunak yang buruk
- Saya sempat memasang port knocking di server HTTP untuk sementara, tetapi menghapusnya karena kernel panic. Nanti mungkin saya pasang lagi setelah masalahnya diperbaiki
- Scraper LLM saat ini belum bertindak "cerdas". Kalau nanti mereka menjadi seperti itu, hal tersebut bisa dimanfaatkan
- Pasti ada cara untuk membingungkan scraper. Misalnya, jika mereka menyatakan melakukan sesuatu yang sebenarnya tidak dilakukan oleh user-agent yang dideklarasikan, tampilkan pesan galat. Pengguna Lynx tidak akan terdampak dan tetap bisa mengakses
Saya kena serangan DoS dari ClaudeBot (Anthropic). Bot itu menghantam situs web 700 ribu kali per bulan dan melampaui batas bandwidth dari penyedia hosting. Memblokir user-agent dan bekerja sama dengan dukungan penyedia hosting untuk mencabut pembatasan sangat merepotkan
- Bot ChatGPT adalah sumber trafik terbesar kedua di situs ini, tetapi belum sampai menimbulkan masalah
Langkah "anti-bot" yang berpusat pada JS makin memperkuat monopoli browser. Sebagai gantinya, saya merekomendasikan formulir HTML sederhana yang menanyakan hal-hal yang belum bisa dipecahkan LLM atau yang masih sering dijawab salah. Lebih baik lagi jika pertanyaannya terkait dengan konten situs. Di forum elektronik, saya pernah memakai pertanyaan "tes teknis" serupa pada formulir pendaftaran; beberapa bisa diselesaikan dengan LLM, tetapi tetap merupakan CAPTCHA yang hanya bisa dipecahkan manusia
Membanjiri situs web dengan spam jelas perilaku buruk. Namun, jika memblokir crawler AI, pada akhirnya Anda akan dirugikan. Coba tebak apa yang akan menggantikan SEO dalam jangka panjang
Saya mengelola beberapa situs konten, dan dalam beberapa hari terakhir menutup beberapa di antaranya karena bot AI yang agresif. Alexa tampaknya yang paling parah
- Situs-situs itu dibuat 20 tahun lalu dan terus diperbarui. Dulu sempat mendapat trafik, tetapi dalam setahun terakhir turun menjadi kurang dari 1.000 pengunjung sah. Sekarang saya malah harus menangani email server down akibat bot agresif yang mengabaikan file robots

Pengembang open source memblokir seluruh negara saat crawler AI memicu lonjakan trafik

Kasus kerusakan nyata dan akses crawler AI yang tak terkendali

Beban yang tidak seimbang dan terpusat pada proyek open source

Tujuan crawler AI dan pola perilaku tiap perusahaan

Langkah respons: tarpit, teka-teki, dan cara kolaboratif

Pengumpulan data AI yang terus berlanjut dan krisis web terbuka

Bacaan terkait

1 komentar

Komentar Hacker News