Mari kita beri makan bot

(maurycyz.com)

9 poin oleh GN⁺ 2025-10-28 | Belum ada komentar. | Bagikan ke WhatsApp

Seorang operator situs web memperkenalkan eksperimen membuat halaman berisi ocehan tak berujung untuk memancing trafik dari bot scraper untuk pelatihan AI
Bot-bot ini bersifat agresif, tidak seperti crawler mesin pencari tradisional, misalnya dengan mengabaikan robots.txt, mengganti IP, dan terus-menerus mengirim permintaan
Semua langkah pertahanan umum menjadi tidak efektif, seperti pemblokiran IP, pembatasan laju, CAPTCHA, dan tembok login, sementara justru hanya merepotkan pengguna asli
Karena itu, penulis menemukan bahwa membuat dan menyajikan data palsu (teks tanpa makna) secara otomatis kepada bot adalah cara yang paling murah dan efektif
Ini menyoroti efek samping pengumpulan data AI dan pemborosan sumber daya server, sekaligus menawarkan langkah respons yang realistis bagi operator web

Jati diri bot

Crawler belakangan ini bukan ditujukan untuk mesin pencari, melainkan untuk mengumpulkan data pelatihan LLM (large language model)
- Mereka mengabaikan robots.txt, menyamar sebagai browser, atau terus berganti IP saat mengakses
- Mereka mengirim beberapa permintaan per detik sepanjang hari dan membebani server
Berbeda dengan mesin pencari lama, mereka tidak peduli pada keberlangsungan situs web dan hanya memperlakukannya sebagai sumber data yang bisa diganti

Menyajikan file statis memang murah, tetapi tidak gratis, karena ada latensi akses SSD dan overhead filesystem
- Mereka meminta halaman lama yang tidak ada di cache dan memicu penurunan performa server
Konsumsi bandwidth juga menjadi masalah; posting blog yang memuat gambar dapat cepat menumpuk hingga memicu trafik lebih dari 1TB per bulan
- Ini merupakan biaya yang sulit ditanggung operator server pribadi

Pemblokiran IP tidak efektif; jaringan bot yang dijalankan perusahaan besar memiliki ribuan alamat
- Bahkan jika semua alamat diblokir, mereka akan membeli IP baru dan tersambung lagi
Pembatasan laju permintaan (rate limit) juga tidak berguna, karena ada kasus di mana mereka memakai IP berbeda untuk setiap permintaan

Berbagai pertahanan seperti login, pembayaran, CAPTCHA, dan proof-of-work berbasis hash pernah diusulkan, tetapi semuanya menimbulkan ketidaknyamanan bagi pengguna
- Kewajiban akun menghalangi akses pembaca, dan verifikasi berbasis JavaScript memblokir browser non-JS
- Kecepatan muat halaman pun menurun dan memperburuk pengalaman pengguna

Ada yang mengusulkan menyerang bot dengan gzip bomb, tetapi dalam praktiknya rasio kompresinya hanya sekitar 1000 kali
- Untuk membuat file hasil ekstraksi 100GB, tetap perlu menyajikan aset 100MB
- Hasil eksperimen menunjukkan bot justru mengabaikannya atau malah mengirim lebih banyak permintaan

Metode "Jedi mind trick" yang mengirim galat 404 agar situs tampak seolah tidak ada juga gagal
- Ketika tautan dipublikasikan di luar, bot mengenali keberadaannya, dan ketika akses diblokir justru meminta dengan lebih agresif
- Pada akhirnya, server baru tenang jika bot dibuat puas

Pembuatan konten dinamis mungkin terdengar mahal, tetapi sebenarnya CPU dan RAM adalah sumber daya tercepat
- Kesan lambat biasanya berasal dari I/O database atau logika JavaScript yang kompleks
Babbler berbasis Markov buatan penulis hanya memakai sekitar 60 mikrodetik CPU dan 1,2MB memori per permintaan
- Tidak ada akses disk, tidak perlu mengelola blacklist
- Bot datang sendiri dan mengonsumsi teks tak bermakna, sehingga beban server berkurang

Pengumpulan data tanpa kendali oleh bot pelatihan AI menyebabkan kenaikan biaya infrastruktur web dan penyalahgunaan konten
Dibanding sekadar memblokir, strategi merespons dengan data tak bermakna lebih efisien dari sisi biaya dan lebih baik untuk menjaga stabilitas server
Ini dinilai sebagai pendekatan eksperimental untuk mencari cara koeksistensi antara crawling AI dan ekosistem web ke depan