5 poin oleh GN⁺ 2025-01-17 | 1 komentar | Bagikan ke WhatsApp
  • Perangkat lunak untuk menangkap perayap web, terutama yang menargetkan perayap yang mengikis data untuk model bahasa besar (LLM).
    • Menghasilkan urutan halaman tak terbatas agar perayap tidak bisa keluar.
    • Menambahkan jeda yang disengaja agar perayap tidak membebani server, dan dapat menggunakan Markov-babble untuk memancing perayap mengumpulkan data.
    • Perangkat lunak ini dirancang untuk tujuan yang bersifat ofensif, sehingga perlu kehati-hatian saat menggunakannya.
  • Peringatan
    • Perayap LLM sangat gigih, dan menggunakan perangkat lunak ini berarti terus memberi perayap data yang mereka inginkan.
    • Tidak ada cara untuk membedakan perayap untuk mesin pencari dan perayap yang melatih model AI, dan menggunakan perangkat lunak ini sangat mungkin membuat situs hilang dari hasil pencarian.
  • Cara penggunaan
    • Disarankan menyembunyikan tarpit di belakang Nginx atau Apache.
    • Tarpit dikonfigurasi menggunakan header HTTP, dan disediakan contoh snippet konfigurasi nginx.
  • Instalasi
    • Dapat dipasang menggunakan Docker atau secara manual.
    • Memerlukan Lua, SQLite, OpenSSL, dan berbagai modul Lua.
    • Setelah instalasi, dapat dijalankan dengan menyesuaikan file config.yml.
  • Bootstrap Markov Babbler
    • Fitur Markov memerlukan korpus yang telah dilatih, dan dapat dilatih menggunakan berbagai sumber teks.
    • Data pelatihan dapat ditambahkan dengan mengirimkannya ke endpoint POST.
  • Statistik
    • Menyediakan beberapa endpoint statistik dalam format JSON, dan dapat memeriksa alamat IP serta string user-agent.
  • Penggunaan defensif Nepenthes
    • Melalui tautan dari situs ke lokasi Nepenthes, perayap dapat dicegah mengakses konten yang sebenarnya.
    • Daftar alamat IP yang dikumpulkan dapat digunakan untuk memblokir perayap.
  • Penggunaan ofensif Nepenthes
    • Dengan tidak memblokir perayap dan memberikan data sebanyak mungkin, model AI dapat diganggu.
  • Berkas konfigurasi
    • Menjelaskan semua direktif yang mungkin dalam file config.yaml.
    • Berbagai pengaturan dapat digunakan untuk menyesuaikan perilaku Nepenthes.

1 komentar

 
GN⁺ 2025-01-17
Komentar Hacker News
  • Ada pendapat tentang cara menguji kerentanan DDOS reflektif pada crawler ChatGPT. Kerentanan ini dapat membuat satu permintaan HTTP memicu 5000 permintaan HTTP

    • OpenAI dan Microsoft mengabaikan kerentanan ini, dan proses pelaporannya sangat sulit
    • Disarankan untuk tidak mengeksploitasi kerentanan ini karena alasan hukum
  • Seseorang membagikan pengalaman pernah mengelola motel bot di masa lalu, dan menyebut ada kasus crawler terjebak selama berhari-hari

    • Keamanan sering kali menjadi pertimbangan belakangan, dan melawan crawler adalah perlombaan yang tidak ada habisnya
  • Seseorang membagikan pengalaman bahwa situs web nirlaba sempat ditutup sementara karena crawling agresif dari bot Amazon

    • Siteground memulihkan situs tersebut, dan setelah itu bot Amazon ditambahkan ke robots.txt
    • Mereka menyatakan ketidakpuasan terhadap situasi saat ini, dan mempertanyakan apakah tarpitting atau hukum bisa menjadi solusi
  • Ada pendapat bahwa tarpitting bisa memperlambat crawling, tetapi tidak akan banyak berdampak kecuali banyak situs menggunakannya

    • Sulit untuk mengidentifikasi bot yang salah, dan ada risiko dikeluarkan dari hasil pencarian
  • Ada pendapat bahwa generator teks acak berbasis rantai Markov tidak akan menjadi masalah besar bagi crawler pelatihan LLM

    • Dibanding polusi acak, mungkin akan lebih efektif menggunakan teks tidak masuk akal yang berulang
  • Ada pendapat bahwa saat ini sedang terjadi error 502 Bad Gateway, dan tidak jelas apakah situs itu diklasifikasikan sebagai crawler web AI atau hanya sedang kelebihan beban

  • Ada pendapat bahwa selama konsep ini tidak menjadi populer, akan mudah untuk memfilternya

    • Perusahaan besar dapat membentuk tim untuk mencegah perangkat lunak semacam ini
  • Di internet sudah ada situs web "tak terbatas", dan crawler menetapkan jumlah halaman yang akan dirayapi per domain

    • Situs populer menerima banyak crawling, tetapi situs yang tidak dikenal menerima sedikit crawling
  • Sebagai pendekatan sederhana, sedang dipertimbangkan metode mengirim 100 permintaan HTTP yang salah untuk setiap permintaan HTTP yang salah

  • Ada pendapat bahwa situs yang menerapkan perangkat lunak ini kemungkinan besar akan menghilang dari semua hasil pencarian

    • Ini bisa jadi bug, atau bisa juga fitur