- Seorang operator situs web memperkenalkan eksperimen membuat halaman berisi ocehan tak berujung untuk memancing trafik dari bot scraper untuk pelatihan AI
- Bot-bot ini bersifat agresif, tidak seperti crawler mesin pencari tradisional, misalnya dengan mengabaikan
robots.txt, mengganti IP, dan terus-menerus mengirim permintaan
- Semua langkah pertahanan umum menjadi tidak efektif, seperti pemblokiran IP, pembatasan laju, CAPTCHA, dan tembok login, sementara justru hanya merepotkan pengguna asli
- Karena itu, penulis menemukan bahwa membuat dan menyajikan data palsu (teks tanpa makna) secara otomatis kepada bot adalah cara yang paling murah dan efektif
- Ini menyoroti efek samping pengumpulan data AI dan pemborosan sumber daya server, sekaligus menawarkan langkah respons yang realistis bagi operator web
Jati diri bot
- Crawler belakangan ini bukan ditujukan untuk mesin pencari, melainkan untuk mengumpulkan data pelatihan LLM (large language model)
- Mereka mengabaikan
robots.txt, menyamar sebagai browser, atau terus berganti IP saat mengakses
- Mereka mengirim beberapa permintaan per detik sepanjang hari dan membebani server
- Berbeda dengan mesin pencari lama, mereka tidak peduli pada keberlangsungan situs web dan hanya memperlakukannya sebagai sumber data yang bisa diganti
Masalah jika akses dibiarkan
- Menyajikan file statis memang murah, tetapi tidak gratis, karena ada latensi akses SSD dan overhead filesystem
- Mereka meminta halaman lama yang tidak ada di cache dan memicu penurunan performa server
- Konsumsi bandwidth juga menjadi masalah; posting blog yang memuat gambar dapat cepat menumpuk hingga memicu trafik lebih dari 1TB per bulan
- Ini merupakan biaya yang sulit ditanggung operator server pribadi
Batas dari upaya pemblokiran
- Pemblokiran IP tidak efektif; jaringan bot yang dijalankan perusahaan besar memiliki ribuan alamat
- Bahkan jika semua alamat diblokir, mereka akan membeli IP baru dan tersambung lagi
- Pembatasan laju permintaan (rate limit) juga tidak berguna, karena ada kasus di mana mereka memakai IP berbeda untuk setiap permintaan
Efek samping firewall dan hambatan autentikasi
- Berbagai pertahanan seperti login, pembayaran, CAPTCHA, dan proof-of-work berbasis hash pernah diusulkan, tetapi semuanya menimbulkan ketidaknyamanan bagi pengguna
- Kewajiban akun menghalangi akses pembaca, dan verifikasi berbasis JavaScript memblokir browser non-JS
- Kecepatan muat halaman pun menurun dan memperburuk pengalaman pengguna
Tidak ampuhnya bom kompresi (gzip bomb)
- Ada yang mengusulkan menyerang bot dengan
gzip bomb, tetapi dalam praktiknya rasio kompresinya hanya sekitar 1000 kali
- Untuk membuat file hasil ekstraksi 100GB, tetap perlu menyajikan aset 100MB
- Hasil eksperimen menunjukkan bot justru mengabaikannya atau malah mengirim lebih banyak permintaan
Kegagalan tipu muslihat
- Metode "Jedi mind trick" yang mengirim galat 404 agar situs tampak seolah tidak ada juga gagal
- Ketika tautan dipublikasikan di luar, bot mengenali keberadaannya, dan ketika akses diblokir justru meminta dengan lebih agresif
- Pada akhirnya, server baru tenang jika bot dibuat puas
Efisiensi memberi data sampah
- Pembuatan konten dinamis mungkin terdengar mahal, tetapi sebenarnya CPU dan RAM adalah sumber daya tercepat
- Kesan lambat biasanya berasal dari I/O database atau logika JavaScript yang kompleks
- Babbler berbasis Markov buatan penulis hanya memakai sekitar 60 mikrodetik CPU dan 1,2MB memori per permintaan
- Tidak ada akses disk, tidak perlu mengelola blacklist
- Bot datang sendiri dan mengonsumsi teks tak bermakna, sehingga beban server berkurang
Kesimpulan
- Pengumpulan data tanpa kendali oleh bot pelatihan AI menyebabkan kenaikan biaya infrastruktur web dan penyalahgunaan konten
- Dibanding sekadar memblokir, strategi merespons dengan data tak bermakna lebih efisien dari sisi biaya dan lebih baik untuk menjaga stabilitas server
- Ini dinilai sebagai pendekatan eksperimental untuk mencari cara koeksistensi antara crawling AI dan ekosistem web ke depan
Belum ada komentar.