1 poin oleh GN⁺ 2024-06-16 | 1 komentar | Bagikan ke WhatsApp
  • Penulis kemarin menulis artikel tentang memblokir bot AI di server, dan hari ini melakukan hal yang sama untuk MacStories
  • Setelah pengaturan selesai, Federico dapat mengutip posting tertentu di MacStories dari situs bernama Perplexity
  • Penulis menerapkan perubahan berikut di situsnya:
    • 30 Maret: mulai memblokir bot seperti PerplexityBot di robots.txt
    • 14 Juni: menambahkan pemblokiran sisi server di nginx. Semua entri yang cocok akan mengembalikan respons 403 Forbidden
  • Penulis berasumsi semua perusahaan AI mengabaikan robots.txt, sehingga telah meminta pemblokiran sejak Maret, tetapi tampaknya tidak berpengaruh
  • Karena penulis menerbitkan artikel tentang pemblokiran bot AI setelah langkah pemblokiran diterapkan, jika User Agent benar-benar dikirim, Perplexity seharusnya tidak bisa mengakses situs tersebut
  • Namun, ketika penulis menanyakan posting itu kepada Perplexity, ia menerima ringkasan lengkap yang mencakup detail yang tidak mungkin diketahui hanya lewat tebakan
  • Penulis sempat mengira mungkin ada kesalahan konfigurasi karena hanya menguji spoofing User Agent Chrome
  • Namun, saat menguji kode menggunakan User Agent yang diklaim Perplexity digunakan untuk permintaan, yaitu PerplexityBot, hasilnya sesuai dugaan: respons 403, sehingga tidak ada masalah pada konfigurasi nginx
  • Ketika penulis bertanya kepada Perplexity AI bagaimana mereka bisa mengakses situs meskipun ada robots.txt, Perplexity AI menjawab bahwa mereka tidak memiliki kemampuan untuk merayapi atau mengakses konten yang diblokir oleh robots.txt, dan bahwa mengakses atau merangkum konten yang dibatasi adalah tindakan yang tidak etis
  • Namun, Lewis memastikan bahwa Perplexity menggunakan string User Agent berikut yang tidak menyertakan PerplexityBot:
    Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3  
    
  • Penulis juga mengaktifkan access log lalu mengajukan pertanyaan ke Perplexity, dan mengonfirmasi hal yang sama seperti Lewis: User Agent tersebut tidak menyertakan User Agent kustom apa pun
  • Perplexity menggunakan browser headless untuk mengikis konten, mengabaikan robots.txt, dan bahkan tidak mengirim string User Agent yang benar
  • Karena browser headless ini tampaknya tidak berada dalam rentang IP Perplexity, bahkan pemblokiran rentang IP pun tidak memungkinkan
  • Penulis tidak ingin posting miliknya dikumpulkan gratis oleh perusahaan AI, tetapi merasa tidak ada lagi tindakan yang bisa dilakukan
  • Penulis bergabung ke Discord Perplexity, memperkenalkan diri di kanal perkenalan, dan mengirim bug report di kanal bug
  • Sebagai langkah berikutnya, penulis mempertimbangkan permintaan GDPR, tetapi belum yakin

Opini GN⁺

  • Pentingnya memblokir bot AI: Untuk mencegah bot AI menggunakan konten situs tanpa izin, diperlukan metode pemblokiran yang tepat.
  • Memeriksa User Agent: Jika bot AI tidak menggunakan User Agent yang benar, penting untuk memverifikasi dan memblokirnya.
  • Keterbatasan file robots.txt: Banyak bot AI dapat mengabaikan file robots.txt, sehingga diperlukan metode pemblokiran tambahan di sisi server.
  • Privasi: Perlu mempertimbangkan cara mencegah akses tanpa izin oleh bot AI melalui regulasi seperti GDPR.
  • Solusi alternatif: Melindungi situs dengan solusi pemblokiran bot AI lain atau alat keamanan juga merupakan pendekatan yang baik.

1 komentar

 
GN⁺ 2024-06-16
Komentar Hacker News
  • Harus dimungkinkan untuk mencegah LLM melatih modelnya dengan dataku, dan Perplexity seharusnya mempermudah pemblokiran ini.
  • Melarang Perplexity memberikan data dari situs webku kepada pengguna melalui kueri web real-time berarti memasuki wilayah yang berbahaya.
  • Pemblokir iklan, mode pembaca, pembaca layar, dan lain-lain juga bekerja dengan cara yang mirip dengan Perplexity, dan melarang ini bisa berdampak pada banyak alat.
  • Saya tidak ingin pemilik situs web memaksa situs ditampilkan hanya dengan cara tertentu menggunakan DRM.
  • Sepertinya ada kesalahpahaman tentang kapan user agent Perplexity diterapkan.
  • Pemilik situs web tidak bisa menentukan browser apa yang akan digunakan pengguna, dan Perplexity juga bukan pengecualian.
  • Ada masalah dengan Perplexity yang mengumpulkan data dalam jumlah besar tanpa user agent, dan ini harus dihentikan.
  • Perlu dibedakan antara perusahaan AI yang mengikis situs web untuk melatih model dan mengambil halaman web yang diminta pengguna.
  • Menyediakan tautan artikel yang membahas masalah Perplexity mengambil dan menggunakan konten milik orang lain.
  • Crawler Perplexity harus menghormati robots.txt, tetapi user agent bukan crawler sehingga tidak perlu mengikutinya.
  • Saya tidak keberatan jika perusahaan AI mengikis situs webku; biarkan saja mereka mengambil data yang salah.
  • Siapa pun yang pernah melakukan web scraping akan tahu alasan berbohong soal user agent.
  • CEO Perplexity mengkritik Google dan OpenAI, tetapi terungkap bahwa mereka sendiri juga tidak mematuhi robots.txt dan menyembunyikan user agent mereka.
  • Kita bisa menggunakan prompt injection tak terlihat untuk mencegah perusahaan AI mengambil kontenku secara gratis.
  • Tidak mengikuti standar web sukarela oleh Perplexity tidak bisa disebut sebagai kebohongan.