- Drew DeVault (pendiri SourceHut) memperingatkan bahwa crawler AI mengabaikan robots.txt dan menyebabkan gangguan serius pada SourceHut
- Infrastruktur GitLab milik KDE juga menjadi tidak dapat diakses akibat serangan crawler AI yang berasal dari rentang IP Alibaba
- Masalah crawler AI
- Crawler AI mengabaikan persyaratan robots.txt
- Merayapi semua halaman dan commit dari git blame serta git log
- Menggunakan User-Agent acak dan mengirim permintaan dari puluhan ribu IP → menyamar sebagai trafik pengguna biasa
- Sulit memblokir crawler → pekerjaan berprioritas tinggi tertunda selama berminggu-minggu atau berbulan-bulan
- Keluhan para administrator sistem
- Masalah crawler AI bukan kasus terpisah, melainkan masalah yang meluas
- Banyak administrator sistem mengalami masalah yang sama
- OpenAI dan Anthropic menetapkan User-Agent yang akurat, tetapi perusahaan AI asal Tiongkok tidak
- Respons KDE GitLab
- Memblokir bot yang menyamar sebagai MS Edge → solusi sementara
- GNOME menerapkan pembatasan laju untuk melihat merge request dan commit bagi pengguna yang tidak login
- Mengadopsi Anubis → browser diizinkan mengakses setelah menyelesaikan tantangan
- Masalah pada Anubis
- Dampaknya juga dirasakan pengguna → perlu waktu untuk menyelesaikan tantangan
- Jika tautan dibagikan di ruang obrolan, beban berlebih terjadi → waktu tunggu 1–2 menit
- 97% trafik adalah bot
- Di GNOME, terjadi 81.000 permintaan dalam 2,5 jam → 97% adalah crawler AI
- Beberapa proyek mengalami penurunan trafik 75% setelah memblokir crawler AI
- Masalah di proyek FOSS lainnya
- Fedora → memblokir seluruh IP Brasil untuk menghentikan crawler
- Inkscape → crawler memalsukan informasi browser → pemblokiran IP dalam skala besar
- Frama Software → membuat daftar blokir 460 ribu IP
- Proyek untuk menangani crawler AI
- ai.robots.txt → menyediakan daftar terbuka untuk memblokir crawler AI
- Mengatur file robots.txt dan .htaccess → mengembalikan halaman error saat ada permintaan dari crawler AI
- Hasil analisis trafik
- Dalam kasus Diaspora, 70% trafik adalah crawler AI
- User agent OpenAI: 25%
- Amazon: 15%
- Anthropic: 4.3%
- Pangsa trafik crawler Google dan Bing kurang dari 1%
- Masalah laporan bug buatan AI
- Proyek Curl mengalami masalah laporan bug buatan AI
- Sebagian besar bug yang dilaporkan adalah masalah halusinasi (hallucination)
- CPython, pip, urllib3, Requests → menghabiskan waktu untuk menangani laporan keamanan buatan AI
- Keandalannya rendah → tetapi tetap perlu diperiksa → beban maintainer meningkat
Kesimpulan
- Crawler AI dan laporan bug buatan AI memberi beban besar pada komunitas open source
- Proyek open source memiliki sumber daya lebih sedikit dibanding produk komersial, dan karena berbasis komunitas, lebih rentan terhadap masalah semacam ini
1 komentar
Komentar Hacker News
Banyak orang yang mengelola infrastruktur internet skala besar mengalami hal serupa
Fastly menyediakan layanan keamanan gratis untuk proyek FOSS
Terkejut melihat proyeknya muncul di gambar pratinjau
Bukan hanya infrastruktur FOSS, tetapi akses internet anonim itu sendiri juga terancam
Baru-baru ini sebuah instance Forgejo diserang
Di masa lalu,
robots.txtdibuat untuk mengatasi masalah mesin pencari, tetapi kini para indexer baru mengabaikannyaDominasi Google dan iklan atas web akan melemah
Menggunakan LLaMa untuk membuat postingan yang saling bertentangan sehingga menimbulkan kekacauan informasi
VideoLAN juga mengalami serangan pada forum dan Gitlab akibat bot dari perusahaan AI
robots.txtAda kemungkinan muncul web yang tidak diindeks oleh mesin pencari