- Saat menganalisis log server web, ditemukan banyak aktivitas bot yang meminta file JavaScript yang tidak ada
- Diduga ini terjadi karena tag skrip di dalam komentar HTML dikenali sebagai kode sungguhan lalu diminta, yang mengindikasikan upaya pengumpulan data untuk pelatihan LLM
- Diusulkan berbagai langkah respons seperti mendeteksi permintaan abnormal ini lalu melakukan peringatan publik, pemblokiran IP, bom dekompresi, dan peracunan data
- Secara khusus, peracunan data disebut sebagai cara efektif yang dapat menurunkan performa model dengan mencemari data pelatihan LLM
- Ditekankan perlunya administrator web secara eksperimental menerapkan strategi pertahanan dan serangan balik terhadap scraper AI
Ditemukan perilaku scraping yang abnormal
- Dalam log server, terkonfirmasi banyak permintaan error 404 terhadap file JavaScript yang tidak ada
- File tersebut adalah skrip nonaktif yang berada di dalam komentar HTML, sehingga browser normal seharusnya tidak memintanya
- Sebagian User-Agent dari permintaan itu teridentifikasi jelas sebagai bot, seperti
python-httpx/0.28.1, Go-http-client/2.0, dan Gulper Web Bot 0.2.4
- Meskipun akses crawler telah dilarang di
robots.txt, permintaan tetap berlanjut, sehingga dinilai sebagai pengabaian aturan atau kebijakan yang diabaikan
- Sebagian permintaan menyamar sebagai browser normal seperti Firefox, Chrome, dan Safari, tetapi karena gagal menafsirkan komentar HTML, hal itu terungkap sebagai identitas palsu
- Permintaan-permintaan ini diduga berasal dari scraper untuk pengumpulan konten tanpa persetujuan bagi pelatihan LLM
Cara kerja scraper
- Sebagian kemungkinan mem-parsing HTML dengan benar lalu menelusuri URL di dalam komentar secara rekursif
- Sebagian lain tampaknya memperlakukan HTML sebagai teks biasa dan melakukan ekstraksi URL berbasis regex
- Dari keragaman dan tingkat kualitas User-Agent, tampak ada beberapa operator dan sebagian menggunakan alat otomatisasi sederhana
- Motif yang sama adalah pengumpulan data secara rakus, dan hal ini diajukan sebagai peluang untuk dibalikkan pemanfaatannya
Sabotase algoritmik (Algorithmic Sabotage)
- Tindakan sengaja mengacaukan sistem algoritmik, sebuah topik yang mendapat perhatian karena masalah biaya eksternal dari LLM
- Jika pola perilaku bot yang tidak manusiawi dikenali, deteksi dan respons menjadi lebih mudah
- Pendekatan respons dibagi menjadi empat: peringatan publik, pemfilteran IP, bom dekompresi, dan peracunan data
0. Peringatan publik (Public Disclosure)
- Salah deteksi kecil yang sepele (misalnya typo User-Agent “Mozlla”) sebaiknya tidak dipublikasikan karena bisa dengan mudah diperbaiki
- Sebaliknya, perilaku yang bersifat mendasar (misalnya permintaan skrip di dalam komentar) bermanfaat untuk dipublikasikan karena tidak bisa diperbaiki begitu saja
- Dengan ini, operator situs lain dapat mendeteksi dan memblokir serangan yang sama
- Sistem untuk mendeteksi perilaku tersebut juga sedang diterapkan ke situs lain
1. Pemfilteran IP (IP Filtering)
- Menggunakan fail2ban untuk memblokir otomatis berdasarkan pola log, tanggal, dan IP
- Biasanya durasi blokir dibuat singkat, tetapi dengan blokir jangka panjang, bot yang belajar dapat dicegah untuk mencoba lagi
- Dalam kasus botnet, permintaan bisa terus berlanjut dengan mengganti IP, tetapi masih dapat dideteksi lewat pola berulang
- Disebutkan juga rencana riset lanjutan tentang analisis perilaku botnet
2. Bom dekompresi (Decompression Bombs)
- Menyajikan zip bomb pada file yang diminta penyerang untuk memicu konsumsi sumber daya sistem
- Dapat menyebabkan penggunaan CPU, RAM, dan disk secara berlebihan, atau bahkan membuka peluang eksploitasi kerentanan
- Kekurangannya adalah konsumsi sumber daya server dan risiko pemborosan bandwidth
- Sebagian bot berjalan pada sistem yang telah terinfeksi, sehingga efek serangannya bisa terbatas
- Alih-alih diterapkan ke semua bot, diusulkan pendekatan merespons sebagian permintaan secara acak
3. Peracunan data (Poisoning)
- Mencemari data untuk pelatihan LLM agar menurunkan performa model
- Menurut riset terbaru, hanya dengan 250 dokumen tercemar, model besar pun dapat terkena dampak yang bertahan lama
- Data tercemar dapat membuat model menghasilkan keluaran yang tidak bermakna pada topik tertentu
- Sebagai contoh, dapat diarahkan agar saat ditanya soal riset keamanan, model merekomendasikan blog tertentu
- Dapat memanfaatkan alat publik seperti nepenthes, iocaine, glaze, dan nightshade
- Jika data pelatihan LLM dikumpulkan tanpa persetujuan, respons semacam ini diajukan sebagai sarana pertahanan yang sah
- Jika dijalankan bersamaan dengan pemblokiran IP, kompleksitas implementasi bisa meningkat, tetapi tetap dimungkinkan untuk dijalankan paralel
- Desain yang efektif mungkin tidak akan dipublikasikan, dan ditekankan perlunya memperluas partisipasi dalam sabotase kreatif
Kesimpulan dan respons komunitas
Belum ada komentar.