- Perangkat lunak untuk menangkap perayap web, terutama yang menargetkan perayap yang mengikis data untuk model bahasa besar (LLM).
- Menghasilkan urutan halaman tak terbatas agar perayap tidak bisa keluar.
- Menambahkan jeda yang disengaja agar perayap tidak membebani server, dan dapat menggunakan Markov-babble untuk memancing perayap mengumpulkan data.
- Perangkat lunak ini dirancang untuk tujuan yang bersifat ofensif, sehingga perlu kehati-hatian saat menggunakannya.
- Peringatan
- Perayap LLM sangat gigih, dan menggunakan perangkat lunak ini berarti terus memberi perayap data yang mereka inginkan.
- Tidak ada cara untuk membedakan perayap untuk mesin pencari dan perayap yang melatih model AI, dan menggunakan perangkat lunak ini sangat mungkin membuat situs hilang dari hasil pencarian.
- Cara penggunaan
- Disarankan menyembunyikan tarpit di belakang Nginx atau Apache.
- Tarpit dikonfigurasi menggunakan header HTTP, dan disediakan contoh snippet konfigurasi nginx.
- Instalasi
- Dapat dipasang menggunakan Docker atau secara manual.
- Memerlukan Lua, SQLite, OpenSSL, dan berbagai modul Lua.
- Setelah instalasi, dapat dijalankan dengan menyesuaikan file
config.yml.
- Bootstrap Markov Babbler
- Fitur Markov memerlukan korpus yang telah dilatih, dan dapat dilatih menggunakan berbagai sumber teks.
- Data pelatihan dapat ditambahkan dengan mengirimkannya ke endpoint POST.
- Statistik
- Menyediakan beberapa endpoint statistik dalam format JSON, dan dapat memeriksa alamat IP serta string user-agent.
- Penggunaan defensif Nepenthes
- Melalui tautan dari situs ke lokasi Nepenthes, perayap dapat dicegah mengakses konten yang sebenarnya.
- Daftar alamat IP yang dikumpulkan dapat digunakan untuk memblokir perayap.
- Penggunaan ofensif Nepenthes
- Dengan tidak memblokir perayap dan memberikan data sebanyak mungkin, model AI dapat diganggu.
- Berkas konfigurasi
- Menjelaskan semua direktif yang mungkin dalam file
config.yaml.
- Berbagai pengaturan dapat digunakan untuk menyesuaikan perilaku Nepenthes.
1 komentar
Komentar Hacker News
Ada pendapat tentang cara menguji kerentanan DDOS reflektif pada crawler ChatGPT. Kerentanan ini dapat membuat satu permintaan HTTP memicu 5000 permintaan HTTP
Seseorang membagikan pengalaman pernah mengelola motel bot di masa lalu, dan menyebut ada kasus crawler terjebak selama berhari-hari
Seseorang membagikan pengalaman bahwa situs web nirlaba sempat ditutup sementara karena crawling agresif dari bot Amazon
Ada pendapat bahwa tarpitting bisa memperlambat crawling, tetapi tidak akan banyak berdampak kecuali banyak situs menggunakannya
Ada pendapat bahwa generator teks acak berbasis rantai Markov tidak akan menjadi masalah besar bagi crawler pelatihan LLM
Ada pendapat bahwa saat ini sedang terjadi error 502 Bad Gateway, dan tidak jelas apakah situs itu diklasifikasikan sebagai crawler web AI atau hanya sedang kelebihan beban
Ada pendapat bahwa selama konsep ini tidak menjadi populer, akan mudah untuk memfilternya
Di internet sudah ada situs web "tak terbatas", dan crawler menetapkan jumlah halaman yang akan dirayapi per domain
Sebagai pendekatan sederhana, sedang dipertimbangkan metode mengirim 100 permintaan HTTP yang salah untuk setiap permintaan HTTP yang salah
Ada pendapat bahwa situs yang menerapkan perangkat lunak ini kemungkinan besar akan menghilang dari semua hasil pencarian