Nepenthes - Jebakan untuk Menangkap Perayap Web AI

(zadzmo.org)

5 poin oleh GN⁺ 2025-01-17 | 1 komentar | Bagikan ke WhatsApp

Perangkat lunak untuk menangkap perayap web, terutama yang menargetkan perayap yang mengikis data untuk model bahasa besar (LLM).
- Menghasilkan urutan halaman tak terbatas agar perayap tidak bisa keluar.
- Menambahkan jeda yang disengaja agar perayap tidak membebani server, dan dapat menggunakan Markov-babble untuk memancing perayap mengumpulkan data.
- Perangkat lunak ini dirancang untuk tujuan yang bersifat ofensif, sehingga perlu kehati-hatian saat menggunakannya.
Peringatan
- Perayap LLM sangat gigih, dan menggunakan perangkat lunak ini berarti terus memberi perayap data yang mereka inginkan.
- Tidak ada cara untuk membedakan perayap untuk mesin pencari dan perayap yang melatih model AI, dan menggunakan perangkat lunak ini sangat mungkin membuat situs hilang dari hasil pencarian.
Cara penggunaan
- Disarankan menyembunyikan tarpit di belakang Nginx atau Apache.
- Tarpit dikonfigurasi menggunakan header HTTP, dan disediakan contoh snippet konfigurasi nginx.
Instalasi
- Dapat dipasang menggunakan Docker atau secara manual.
- Memerlukan Lua, SQLite, OpenSSL, dan berbagai modul Lua.
- Setelah instalasi, dapat dijalankan dengan menyesuaikan file config.yml.
Bootstrap Markov Babbler
- Fitur Markov memerlukan korpus yang telah dilatih, dan dapat dilatih menggunakan berbagai sumber teks.
- Data pelatihan dapat ditambahkan dengan mengirimkannya ke endpoint POST.
Statistik
- Menyediakan beberapa endpoint statistik dalam format JSON, dan dapat memeriksa alamat IP serta string user-agent.
Penggunaan defensif Nepenthes
- Melalui tautan dari situs ke lokasi Nepenthes, perayap dapat dicegah mengakses konten yang sebenarnya.
- Daftar alamat IP yang dikumpulkan dapat digunakan untuk memblokir perayap.
Penggunaan ofensif Nepenthes
- Dengan tidak memblokir perayap dan memberikan data sebanyak mungkin, model AI dapat diganggu.
Berkas konfigurasi
- Menjelaskan semua direktif yang mungkin dalam file config.yaml.
- Berbagai pengaturan dapat digunakan untuk menyesuaikan perilaku Nepenthes.

1 komentar

GN⁺ 2025-01-17

Komentar Hacker News

Ada pendapat tentang cara menguji kerentanan DDOS reflektif pada crawler ChatGPT. Kerentanan ini dapat membuat satu permintaan HTTP memicu 5000 permintaan HTTP
- OpenAI dan Microsoft mengabaikan kerentanan ini, dan proses pelaporannya sangat sulit
- Disarankan untuk tidak mengeksploitasi kerentanan ini karena alasan hukum
Seseorang membagikan pengalaman pernah mengelola motel bot di masa lalu, dan menyebut ada kasus crawler terjebak selama berhari-hari
- Keamanan sering kali menjadi pertimbangan belakangan, dan melawan crawler adalah perlombaan yang tidak ada habisnya
Seseorang membagikan pengalaman bahwa situs web nirlaba sempat ditutup sementara karena crawling agresif dari bot Amazon
- Siteground memulihkan situs tersebut, dan setelah itu bot Amazon ditambahkan ke robots.txt
- Mereka menyatakan ketidakpuasan terhadap situasi saat ini, dan mempertanyakan apakah tarpitting atau hukum bisa menjadi solusi
Ada pendapat bahwa tarpitting bisa memperlambat crawling, tetapi tidak akan banyak berdampak kecuali banyak situs menggunakannya
- Sulit untuk mengidentifikasi bot yang salah, dan ada risiko dikeluarkan dari hasil pencarian
Ada pendapat bahwa generator teks acak berbasis rantai Markov tidak akan menjadi masalah besar bagi crawler pelatihan LLM
- Dibanding polusi acak, mungkin akan lebih efektif menggunakan teks tidak masuk akal yang berulang
Ada pendapat bahwa saat ini sedang terjadi error 502 Bad Gateway, dan tidak jelas apakah situs itu diklasifikasikan sebagai crawler web AI atau hanya sedang kelebihan beban
Ada pendapat bahwa selama konsep ini tidak menjadi populer, akan mudah untuk memfilternya
- Perusahaan besar dapat membentuk tim untuk mencegah perangkat lunak semacam ini
Di internet sudah ada situs web "tak terbatas", dan crawler menetapkan jumlah halaman yang akan dirayapi per domain
- Situs populer menerima banyak crawling, tetapi situs yang tidak dikenal menerima sedikit crawling
Sebagai pendekatan sederhana, sedang dipertimbangkan metode mengirim 100 permintaan HTTP yang salah untuk setiap permintaan HTTP yang salah
Ada pendapat bahwa situs yang menerapkan perangkat lunak ini kemungkinan besar akan menghilang dari semua hasil pencarian
- Ini bisa jadi bug, atau bisa juga fitur

Nepenthes - Jebakan untuk Menangkap Perayap Web AI

Bacaan terkait

1 komentar

Komentar Hacker News