Perplexity AI Berbohong tentang User Agent-nya
(rknight.me)- Penulis kemarin menulis artikel tentang memblokir bot AI di server, dan hari ini melakukan hal yang sama untuk MacStories
- Setelah pengaturan selesai, Federico dapat mengutip posting tertentu di MacStories dari situs bernama Perplexity
- Penulis menerapkan perubahan berikut di situsnya:
- 30 Maret: mulai memblokir bot seperti
PerplexityBotdi robots.txt - 14 Juni: menambahkan pemblokiran sisi server di nginx. Semua entri yang cocok akan mengembalikan respons 403 Forbidden
- 30 Maret: mulai memblokir bot seperti
- Penulis berasumsi semua perusahaan AI mengabaikan robots.txt, sehingga telah meminta pemblokiran sejak Maret, tetapi tampaknya tidak berpengaruh
- Karena penulis menerbitkan artikel tentang pemblokiran bot AI setelah langkah pemblokiran diterapkan, jika User Agent benar-benar dikirim, Perplexity seharusnya tidak bisa mengakses situs tersebut
- Namun, ketika penulis menanyakan posting itu kepada Perplexity, ia menerima ringkasan lengkap yang mencakup detail yang tidak mungkin diketahui hanya lewat tebakan
- Penulis sempat mengira mungkin ada kesalahan konfigurasi karena hanya menguji spoofing User Agent Chrome
- Namun, saat menguji kode menggunakan User Agent yang diklaim Perplexity digunakan untuk permintaan, yaitu
PerplexityBot, hasilnya sesuai dugaan: respons 403, sehingga tidak ada masalah pada konfigurasi nginx - Ketika penulis bertanya kepada Perplexity AI bagaimana mereka bisa mengakses situs meskipun ada robots.txt, Perplexity AI menjawab bahwa mereka tidak memiliki kemampuan untuk merayapi atau mengakses konten yang diblokir oleh robots.txt, dan bahwa mengakses atau merangkum konten yang dibatasi adalah tindakan yang tidak etis
- Namun, Lewis memastikan bahwa Perplexity menggunakan string User Agent berikut yang tidak menyertakan
PerplexityBot:Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3 - Penulis juga mengaktifkan access log lalu mengajukan pertanyaan ke Perplexity, dan mengonfirmasi hal yang sama seperti Lewis: User Agent tersebut tidak menyertakan User Agent kustom apa pun
- Perplexity menggunakan browser headless untuk mengikis konten, mengabaikan robots.txt, dan bahkan tidak mengirim string User Agent yang benar
- Karena browser headless ini tampaknya tidak berada dalam rentang IP Perplexity, bahkan pemblokiran rentang IP pun tidak memungkinkan
- Penulis tidak ingin posting miliknya dikumpulkan gratis oleh perusahaan AI, tetapi merasa tidak ada lagi tindakan yang bisa dilakukan
- Penulis bergabung ke Discord Perplexity, memperkenalkan diri di kanal perkenalan, dan mengirim bug report di kanal bug
- Sebagai langkah berikutnya, penulis mempertimbangkan permintaan GDPR, tetapi belum yakin
Opini GN⁺
- Pentingnya memblokir bot AI: Untuk mencegah bot AI menggunakan konten situs tanpa izin, diperlukan metode pemblokiran yang tepat.
- Memeriksa User Agent: Jika bot AI tidak menggunakan User Agent yang benar, penting untuk memverifikasi dan memblokirnya.
- Keterbatasan file robots.txt: Banyak bot AI dapat mengabaikan file robots.txt, sehingga diperlukan metode pemblokiran tambahan di sisi server.
- Privasi: Perlu mempertimbangkan cara mencegah akses tanpa izin oleh bot AI melalui regulasi seperti GDPR.
- Solusi alternatif: Melindungi situs dengan solusi pemblokiran bot AI lain atau alat keamanan juga merupakan pendekatan yang baik.
1 komentar
Komentar Hacker News