- Perplexity menggunakan crawler web beridentitas tersembunyi untuk menghindari arahan larangan crawling
- Terdeteksi tindakan seperti mengabaikan berkas robots.txt serta terus mengubah IP dan User Agent
- Dalam eksperimen domain baru, terbukti bahwa Perplexity tetap mengakses konten situs meskipun pengaturan larangan diterapkan
- Cloudflare memperbarui aturan pengelolaan dengan mengecualikan Perplexity dari bot resmi untuk mencegah perilaku semacam ini
- Berbeda dengan operator bot yang baik seperti OpenAI, perilaku penyamaran Perplexity dikritik sebagai masalah
Ikhtisar tindakan Perplexity yang menggunakan crawler tersembunyi
- Perplexity adalah mesin jawaban berbasis AI yang pada awalnya meng-crawl situs web dengan User Agent yang dilaporkan secara resmi
- Namun saat menghadapi pemblokiran jaringan, ia mengubah User Agent guna menyembunyikan identitas dan mencoba mengakses melalui berbagai ASN (Autonomous System Number)
- Dalam proses ini ditemukan banyak upaya akses yang mengabaikan atau tidak melakukan permintaan terhadap berkas robots.txt
Prinsip kepercayaan antara situs web dan crawler serta perilaku bermasalah
- Internet selama puluhan tahun berkembang berdasarkan kepercayaan, dan crawler pada prinsipnya harus memiliki transparansi, kejelasan tujuan, dan standar perilaku yang jelas
- Crawler harus menghormati petunjuk serta prioritas pemilik situs, dan perilaku yang diamati dari Perplexity ini melanggar prinsip tersebut
- Akibatnya, Cloudflare mengecualikan Perplexity dari daftar bot resmi dan menerapkan aturan manajemen tambahan untuk mendeteksi dan memblokir crawler stealth
Kasus uji dan deteksi
- Cloudflare menguji perilaku crawling Perplexity dengan membuat domain baru
- Mengonfigurasi robots.txt agar menolak semua akses otomatis dan menambahkan aturan WAF
- Meskipun User Agent dan IP resmi Perplexity diblokir, tetap terbukti ada pengumpulan konten situs dengan menyembunyikan identitas
- Perplexity mencoba mengakses konten baik dengan User Agent resmi maupun User Agent stealth, dan yang terakhir menyamar sebagai browser nyata (Chrome)
| Kategori |
Contoh User Agent |
Permintaan per hari |
| Resmi |
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user) |
20 juta~25 juta |
| Stealth |
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 |
3 juta~6 juta |
- Menggunakan beberapa IP dan ASN yang tidak termasuk dalam rentang IP resmi serta terus mengganti IP untuk mencoba melewati kebijakan pemblokiran
- Hal ini teridentifikasi pada puluhan ribu domain dan jutaan permintaan, dan Cloudflare menggunakan pembelajaran mesin serta sinyal jaringan untuk mengklasifikasikan crawler tersebut
Kasus dan batasan penghindaran crawler stealth
- Saat crawler stealth diblokir, Perplexity tampak mencoba menyediakan jawaban menggunakan materi dari situs web lain
- Namun dalam skenario ini juga terdeteksi penurunan kejelasan dan kedalaman konten secara signifikan
Standar operator bot yang baik dan praktik terbaik OpenAI
- Bot yang dikelola dengan baik seharusnya memiliki prinsip transparansi, identitas yang jelas, keterbukaan tujuan aktivitas, penggunaan bot terpisah untuk setiap aktivitas, dan kepatuhan pada aturan webmaster (seperti robots.txt)
- OpenAI menyediakan IP dan User Agent resmi, serta tujuan aktivitas crawler secara transparan, dan mematuhi robots.txt secara ketat
- Dalam eksperimen nyata, crawler ChatGPT menghentikan upaya crawling tambahan begitu menemukan aturan disallow atau pemblokiran jaringan
- Mereka juga secara aktif mengadopsi mekanisme autentikasi terstandar seperti Web Bot Auth
Metode perlindungan dan respons
- Semua crawling yang terjadi dari User Agent Perplexity yang tidak dilaporkan dideteksi dan diblokir di sistem manajemen bot Cloudflare
- Pelanggan yang mengaktifkan aturan pemblokiran bot atau aturan tantangan yang sudah ada di Cloudflare sudah termasuk dalam area terlindungi
- Aturan manajemen untuk memblokir crawler stealth tersedia untuk seluruh pelanggan (termasuk pelanggan gratis)
- Setelah pengumuman Content Independence Day, lebih dari 2,5 juta situs web menerapkan kebijakan larangan AI crawling
- Menanggapi upaya evasion yang terus berkembang dari operator bot, Cloudflare juga terus mengembangkan kerangka kerja dan teknologinya
Upaya kebijakan dan proyeksi ke depan
- Cloudflare secara aktif berpartisipasi bersama para ahli teknis dan kebijakan global, termasuk IETF, dalam diskusi untuk standardisasi perluasan robots.txt
- Maju menuju penetapan aturan crawler yang dapat dipercaya dan menekankan transparansi serta kepatuhan di tengah ekosistem AI dan crawler yang berubah cepat
Belum ada komentar.