9 poin oleh GN⁺ 2025-10-28 | Belum ada komentar. | Bagikan ke WhatsApp
  • Seorang operator situs web memperkenalkan eksperimen membuat halaman berisi ocehan tak berujung untuk memancing trafik dari bot scraper untuk pelatihan AI
  • Bot-bot ini bersifat agresif, tidak seperti crawler mesin pencari tradisional, misalnya dengan mengabaikan robots.txt, mengganti IP, dan terus-menerus mengirim permintaan
  • Semua langkah pertahanan umum menjadi tidak efektif, seperti pemblokiran IP, pembatasan laju, CAPTCHA, dan tembok login, sementara justru hanya merepotkan pengguna asli
  • Karena itu, penulis menemukan bahwa membuat dan menyajikan data palsu (teks tanpa makna) secara otomatis kepada bot adalah cara yang paling murah dan efektif
  • Ini menyoroti efek samping pengumpulan data AI dan pemborosan sumber daya server, sekaligus menawarkan langkah respons yang realistis bagi operator web

Jati diri bot

  • Crawler belakangan ini bukan ditujukan untuk mesin pencari, melainkan untuk mengumpulkan data pelatihan LLM (large language model)
    • Mereka mengabaikan robots.txt, menyamar sebagai browser, atau terus berganti IP saat mengakses
    • Mereka mengirim beberapa permintaan per detik sepanjang hari dan membebani server
  • Berbeda dengan mesin pencari lama, mereka tidak peduli pada keberlangsungan situs web dan hanya memperlakukannya sebagai sumber data yang bisa diganti

Masalah jika akses dibiarkan

  • Menyajikan file statis memang murah, tetapi tidak gratis, karena ada latensi akses SSD dan overhead filesystem
    • Mereka meminta halaman lama yang tidak ada di cache dan memicu penurunan performa server
  • Konsumsi bandwidth juga menjadi masalah; posting blog yang memuat gambar dapat cepat menumpuk hingga memicu trafik lebih dari 1TB per bulan
    • Ini merupakan biaya yang sulit ditanggung operator server pribadi

Batas dari upaya pemblokiran

  • Pemblokiran IP tidak efektif; jaringan bot yang dijalankan perusahaan besar memiliki ribuan alamat
    • Bahkan jika semua alamat diblokir, mereka akan membeli IP baru dan tersambung lagi
  • Pembatasan laju permintaan (rate limit) juga tidak berguna, karena ada kasus di mana mereka memakai IP berbeda untuk setiap permintaan

Efek samping firewall dan hambatan autentikasi

  • Berbagai pertahanan seperti login, pembayaran, CAPTCHA, dan proof-of-work berbasis hash pernah diusulkan, tetapi semuanya menimbulkan ketidaknyamanan bagi pengguna
    • Kewajiban akun menghalangi akses pembaca, dan verifikasi berbasis JavaScript memblokir browser non-JS
    • Kecepatan muat halaman pun menurun dan memperburuk pengalaman pengguna

Tidak ampuhnya bom kompresi (gzip bomb)

  • Ada yang mengusulkan menyerang bot dengan gzip bomb, tetapi dalam praktiknya rasio kompresinya hanya sekitar 1000 kali
    • Untuk membuat file hasil ekstraksi 100GB, tetap perlu menyajikan aset 100MB
    • Hasil eksperimen menunjukkan bot justru mengabaikannya atau malah mengirim lebih banyak permintaan

Kegagalan tipu muslihat

  • Metode "Jedi mind trick" yang mengirim galat 404 agar situs tampak seolah tidak ada juga gagal
    • Ketika tautan dipublikasikan di luar, bot mengenali keberadaannya, dan ketika akses diblokir justru meminta dengan lebih agresif
    • Pada akhirnya, server baru tenang jika bot dibuat puas

Efisiensi memberi data sampah

  • Pembuatan konten dinamis mungkin terdengar mahal, tetapi sebenarnya CPU dan RAM adalah sumber daya tercepat
    • Kesan lambat biasanya berasal dari I/O database atau logika JavaScript yang kompleks
  • Babbler berbasis Markov buatan penulis hanya memakai sekitar 60 mikrodetik CPU dan 1,2MB memori per permintaan
    • Tidak ada akses disk, tidak perlu mengelola blacklist
    • Bot datang sendiri dan mengonsumsi teks tak bermakna, sehingga beban server berkurang

Kesimpulan

  • Pengumpulan data tanpa kendali oleh bot pelatihan AI menyebabkan kenaikan biaya infrastruktur web dan penyalahgunaan konten
  • Dibanding sekadar memblokir, strategi merespons dengan data tak bermakna lebih efisien dari sisi biaya dan lebih baik untuk menjaga stabilitas server
  • Ini dinilai sebagai pendekatan eksperimental untuk mencari cara koeksistensi antara crawling AI dan ekosistem web ke depan

Belum ada komentar.

Belum ada komentar.