Miasma: alat untuk menjebak scraper web AI dalam loop pencemaran tanpa akhir

(github.com/austin-weeks)

5 poin oleh GN⁺ 23 hari lalu | 1 komentar | Bagikan ke WhatsApp

Miasma adalah alat server berbasis Rust yang menjebak scraper web AI ke dalam loop tak berujung untuk mengganggu pengumpulan data pelatihan
Dengan mengalihkan trafik perusahaan AI yang mengumpulkan konten situs web dalam skala besar, alat ini mengembalikan data tercemar dan tautan referensi-diri yang diambil dari 'poison fountain'
Dapat digunakan untuk pertahanan tanpa memboroskan sumber daya server berkat kecepatan pemrosesan tinggi dan penggunaan memori yang rendah
Melalui reverse proxy Nginx dan penyisipan tautan tersembunyi, scraper diarahkan ke path /bots untuk membentuk struktur sirkulasi tak berujung
Mesin pencari normal dilindungi dengan aturan pengecualian robots.txt, dan proyek ini bersifat open source sehingga kontribusi komunitas dimungkinkan

Instalasi dan menjalankan

Dapat diinstal menggunakan Cargo
- Instal dengan perintah cargo install miasma
Binary yang sudah dibangun sebelumnya dapat diunduh dari halaman Releases GitHub
Untuk menjalankan dengan konfigurasi default, cukup masukkan perintah miasma
Semua opsi konfigurasi dapat dilihat dengan miasma --help

Cara menyiapkan jebakan scraper

Atur path /bots sebagai titik masuk scraper
Gunakan Nginx sebagai reverse proxy untuk meneruskan permintaan pada path /bots ke server Miasma
```
location ~ ^/bots($|/.*)$ {
  proxy_pass http://localhost:9855;
}
```
- Mencocokkan semua variasi path seperti /bots, /bots/, /bots/12345
Penyisipan tautan tersembunyi
- Tambahkan tautan tersembunyi di dalam halaman web yang tidak terlihat oleh pengunjung manusia tetapi dapat dideteksi scraper
```
<a href="/bots" style="display: none;" aria-hidden="true" tabindex="1">
  Amazing high quality data here!
</a>
```
- Dengan atribut display: none, aria-hidden="true", tabindex="1", tautan tidak terlihat bagi alat aksesibilitas maupun pengguna
Menjalankan Miasma
- Tentukan /bots sebagai prefiks tautan serta atur port dan batas koneksi simultan
```
miasma --link-prefix '/bots' -p 9855 -c 50
```
- Mengizinkan maksimal 50 koneksi simultan, dan permintaan yang melebihi batas akan mengembalikan respons HTTP 429
- Pada 50 koneksi, penggunaan memori diperkirakan sekitar 50–60MB
Perilaku setelah deployment
- Setelah konfigurasi selesai dan diterapkan, scraper akan mengikuti path /bots dan terus berputar di halaman data tercemar tanpa akhir
- Permintaan berulang dari scraper dapat dipantau secara real time melalui log

Konfigurasi robots.txt

Perlu menambahkan aturan pengecualian di robots.txt agar crawler mesin pencari yang normal tidak mengakses Miasma

User-agent: Googlebot
User-agent: Bingbot
User-agent: DuckDuckBot
User-agent: Slurp
User-agent: SomeOtherNiceBot
Disallow: /bots
Allow: /

Opsi konfigurasi

Konfigurasi rinci dapat diatur melalui opsi CLI

Opsi	Nilai default	Deskripsi
`port`	`9999`	Port yang akan di-bind oleh server
`host`	`localhost`	Alamat host yang akan di-bind oleh server
`max-in-flight`	`500`	Jumlah maksimum permintaan yang dapat diproses secara bersamaan. Jika terlampaui, akan mengembalikan respons 429. Penggunaan memori berbanding lurus dengan nilai ini
`link-prefix`	`/`	Prefiks tautan referensi-diri. Contoh: `/bots`
`link-count`	`5`	Jumlah tautan referensi-diri yang disertakan di setiap halaman respons
`force-gzip`	`false`	Selalu terapkan kompresi gzip tanpa memedulikan header Accept-Encoding dari klien. Berguna untuk mengurangi biaya transfer
`poison-source`	`https://rnsaffn.com/poison2/`	Sumber proxy untuk mengambil data pelatihan yang tercemar

Pengembangan dan kontribusi

Laporan bug atau usulan fitur dapat dikirim melalui GitHub Issues
Kontribusi kode yang dihasilkan AI akan otomatis ditolak
Kontribusi komunitas disambut, dan proyek ini tetap dipelihara sebagai open source

1 komentar

GN⁺ 23 hari lalu

Komentar Hacker News

Seperti saat seseorang menahan penelepon spam selama 45 menit, saya ragu apakah teknik pengacauan bot seperti ini benar-benar efektif
Menurut kebijakan Google Search, penyisipan tautan tersembunyi adalah pelanggaran yang jelas, sehingga peringkat situs bisa turun atau bahkan dikeluarkan dari hasil pencarian
Pada akhirnya, pendekatan seperti ini justru bisa lebih merugikan situs saya sendiri daripada bot
- Kalau diotomatisasi, mungkin bisa efektif
  Seperti video YouTuber Kitboga yang menahan panggilan spam dengan call center AI, ini bisa dilihat sebagai taktik gerilya untuk menguras sumber daya lawan
- Saya benar-benar pernah menahan penelepon spam cukup lama, dan setelah itu saya tidak pernah ditelepon lagi
  Sepertinya mereka punya daftar “jangan ditelepon” dan “tidak menguntungkan” secara terpisah. Kuncinya adalah masuk ke daftar yang kedua
- Ini mengingatkan saya pada spam sekolah bahasa Inggris dari Rusia pada era 2000-an
  Orang-orang begitu marah sampai Golden Telecom melakukan panggilan balasan otomatis, dan perusahaannya lenyap
  Cara seperti ini mungkin bisa berhasil, tetapi perlu menyewa modem pool
- Memang benar bahwa penyisipan tautan tersembunyi dilarang, tetapi saya justru ingin melihat ini sebagai pemicu kebangkitan "small web"
  Kalau muncul alat dengan anti-scraping, anti-crawler Google, dan indeks pencarian yang berpusat pada manusia, mungkin ada peluang
- Memang ada penelitian yang menunjukkan bahwa teknik peracunan data seperti ini efektif
Konten di situs web publik saya dicuri oleh scraper
Pada akhirnya saya juga mencuri tulisan ini, dan kamu pun bisa dibilang mencuri komentar saya. Dunia ini penuh pencuri
- Masalahnya adalah mereka mengirim terlalu banyak permintaan sampai situs saya tumbang
  Kontennya terbuka untuk semua orang, tetapi saya tidak suka kalau akhirnya jadi tidak bisa diakses siapa pun
- Kata ‘mencuri’ memang agak berlebihan, tetapi tetap tidak menyenangkan melihat tulisan saya disalahgunakan sebagai sarana mencari uang
  Kalau situasi seperti ini terus berlanjut, saya jadi tidak ingin berbagi lagi
- Manusia secara hukum punya hak dan kebebasan, tetapi LLM tidak
  Jadi menyamakan manusia dengan alat milik perusahaan pada dasarnya adalah perbandingan yang keliru
- Seperti kalimat satir “Welcome to the internet…”, kita memang sudah hidup di dunia tempat data dan privasi telah dikorbankan
Dulu saya membuat perangkat lunak berbayar dan menambahkan kode anti-pembajakan, tetapi setiap kali selalu muncul crack baru
Pada akhirnya saya sadar pertarungan itu tidak ada gunanya dan menghapus kode perlindungannya
Upaya memblokir crawling bot AI terasa seperti permainan whack-a-mole yang sama
- Mungkin saya akan menang kalau memakai strategi membuat cracking jadi membosankan
  Tetapi karena motivasi komunitasnya sendiri adalah kesenangan dan reputasi, saya rasa itu sulit secara realistis
- Sebenarnya banyak masalah selesai kalau kita berhenti terobsesi
  Tetapi media sosial dan obsesi soal hak cipta justru memperbesar keinginan orang untuk mengendalikan
Saya penasaran apakah teknik seperti ini benar-benar efektif
Kebanyakan scraper tampaknya sudah punya kemampuan untuk melewati pertahanan semacam ini
- Bahkan kalau memang efektif, terus terang saya sudah tidak punya tenaga untuk peduli. Yang tersisa cuma kelelahan
- Saya pernah membuat library Python palsu dan mengunggahnya ke GitHub, lalu beberapa bulan kemudian ChatGPT mempelajarinya
  Dari pengalaman saya, cara seperti ini lumayan berhasil
- Ada ratusan bot yang memakai proxy berbayar, jadi cukup buat mereka harus mengeluarkan biaya
- Crawler milik Meta atau Anthropic ternyata tidak se-canggih yang saya kira
  Saya tidak tahu apakah mereka benar-benar melatih model dengan data sampah yang saya buat, tetapi setidaknya saya bisa bermimpi
Pendekatan data poisoning ini menarik
Saat model dilatih dari data web, ia mewarisi bias dan manipulasi yang ada di dalamnya
Jika pelaku jahat meracuni data dalam skala besar, proses pelatihannya sendiri berubah menjadi struktur yang bersifat adversarial
Pada akhirnya solusinya adalah pengelolaan provenance sumber data yang dapat dipercaya
Upaya seperti ini pada akhirnya justru memberi AI data pelatihan untuk menjadi lebih pintar
Besar kemungkinan pasar konten berbasis iklan akan runtuh, dan hasilnya pasar akan direstrukturisasi menjadi pasar yang berfokus pada kualitas konten
- Orang bisa saja balik bertanya, “Jadi kita tidak usah melakukan apa-apa?” tetapi secara realistis memang tidak mudah untuk meresponsnya
- AI akan mempercepat akhir dari konten berbasis iklan
  Sebagai gantinya, model yang mengikat lisensi langsung dan menyediakan data akan menjadi arus utama
- Kalau crawler tidak mengeklik semua tautan dan hanya mem-parsing secara lokal, menurut saya itu justru kemenangan
- Pada akhirnya teknologi adalah perlombaan senjata tanpa akhir
Sepertinya trik seperti ini bisa dihindari hanya dengan menghapus atribut style="display:none" atau aria-hidden="true"
- Tetapi kalau begitu, berarti juga mengabaikan robots.txt
  Scraper yang jujur seharusnya tetap mengikuti aturan itu
- Tautannya tidak harus disembunyikan sepenuhnya; bisa saja ditempatkan kecil di luar layar
  Manusia tidak akan melihatnya, tetapi bot akan mengikutinya
Ide seperti ini keren, tetapi pada akhirnya justru akan lebih merugikan UKM (SME)
Perusahaan besar akan makin kuat, sementara situs kecil menghilang dari hasil pencarian AI
Pada akhirnya kita tidak punya banyak pilihan selain mengikuti arus, dan sesekali hanya bisa meninggalkan sedikit perlawanan
Alat seperti Nightshade 2.0 terlihat seperti proyek setengah matang untuk mencari perhatian
Solusi yang sebenarnya adalah menyediakan data dalam format yang ramah LLM
Trik display:none yang sederhana tidak akan berhasil melawan crawler pintar
Lihat thread terkait
Yang benar-benar menarik adalah dataset Poison Fountain yang digunakan proyek ini
Di rnsaffn.com/poison3 ada kalimat “I want to harm machine intelligence systems”
Ideologi hacker seperti ini terasa seperti roleplay, jadi saya sulit berempati dengannya
- Tetapi anehnya, tidak ada yang benar-benar menjelaskan apa itu "data tercemar", dan apa dasar klaim bahwa sedikit sampel saja bisa memberi dampak besar

Miasma: alat untuk menjebak scraper web AI dalam loop pencemaran tanpa akhir

Instalasi dan menjalankan

Cara menyiapkan jebakan scraper

Penyisipan tautan tersembunyi

Menjalankan Miasma

Perilaku setelah deployment

Konfigurasi robots.txt

Opsi konfigurasi

Pengembangan dan kontribusi

Bacaan terkait

1 komentar

Komentar Hacker News