4 poin oleh GN⁺ 2025-08-05 | Belum ada komentar. | Bagikan ke WhatsApp
  • Perplexity menggunakan crawler web beridentitas tersembunyi untuk menghindari arahan larangan crawling
  • Terdeteksi tindakan seperti mengabaikan berkas robots.txt serta terus mengubah IP dan User Agent
  • Dalam eksperimen domain baru, terbukti bahwa Perplexity tetap mengakses konten situs meskipun pengaturan larangan diterapkan
  • Cloudflare memperbarui aturan pengelolaan dengan mengecualikan Perplexity dari bot resmi untuk mencegah perilaku semacam ini
  • Berbeda dengan operator bot yang baik seperti OpenAI, perilaku penyamaran Perplexity dikritik sebagai masalah

Ikhtisar tindakan Perplexity yang menggunakan crawler tersembunyi

  • Perplexity adalah mesin jawaban berbasis AI yang pada awalnya meng-crawl situs web dengan User Agent yang dilaporkan secara resmi
  • Namun saat menghadapi pemblokiran jaringan, ia mengubah User Agent guna menyembunyikan identitas dan mencoba mengakses melalui berbagai ASN (Autonomous System Number)
  • Dalam proses ini ditemukan banyak upaya akses yang mengabaikan atau tidak melakukan permintaan terhadap berkas robots.txt

Prinsip kepercayaan antara situs web dan crawler serta perilaku bermasalah

  • Internet selama puluhan tahun berkembang berdasarkan kepercayaan, dan crawler pada prinsipnya harus memiliki transparansi, kejelasan tujuan, dan standar perilaku yang jelas
  • Crawler harus menghormati petunjuk serta prioritas pemilik situs, dan perilaku yang diamati dari Perplexity ini melanggar prinsip tersebut
  • Akibatnya, Cloudflare mengecualikan Perplexity dari daftar bot resmi dan menerapkan aturan manajemen tambahan untuk mendeteksi dan memblokir crawler stealth

Kasus uji dan deteksi

  • Cloudflare menguji perilaku crawling Perplexity dengan membuat domain baru
    • Mengonfigurasi robots.txt agar menolak semua akses otomatis dan menambahkan aturan WAF
    • Meskipun User Agent dan IP resmi Perplexity diblokir, tetap terbukti ada pengumpulan konten situs dengan menyembunyikan identitas
  • Perplexity mencoba mengakses konten baik dengan User Agent resmi maupun User Agent stealth, dan yang terakhir menyamar sebagai browser nyata (Chrome)
Kategori Contoh User Agent Permintaan per hari
Resmi Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user) 20 juta~25 juta
Stealth Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 3 juta~6 juta
  • Menggunakan beberapa IP dan ASN yang tidak termasuk dalam rentang IP resmi serta terus mengganti IP untuk mencoba melewati kebijakan pemblokiran
  • Hal ini teridentifikasi pada puluhan ribu domain dan jutaan permintaan, dan Cloudflare menggunakan pembelajaran mesin serta sinyal jaringan untuk mengklasifikasikan crawler tersebut

Kasus dan batasan penghindaran crawler stealth

  • Saat crawler stealth diblokir, Perplexity tampak mencoba menyediakan jawaban menggunakan materi dari situs web lain
  • Namun dalam skenario ini juga terdeteksi penurunan kejelasan dan kedalaman konten secara signifikan

Standar operator bot yang baik dan praktik terbaik OpenAI

  • Bot yang dikelola dengan baik seharusnya memiliki prinsip transparansi, identitas yang jelas, keterbukaan tujuan aktivitas, penggunaan bot terpisah untuk setiap aktivitas, dan kepatuhan pada aturan webmaster (seperti robots.txt)
  • OpenAI menyediakan IP dan User Agent resmi, serta tujuan aktivitas crawler secara transparan, dan mematuhi robots.txt secara ketat
  • Dalam eksperimen nyata, crawler ChatGPT menghentikan upaya crawling tambahan begitu menemukan aturan disallow atau pemblokiran jaringan
  • Mereka juga secara aktif mengadopsi mekanisme autentikasi terstandar seperti Web Bot Auth

Metode perlindungan dan respons

  • Semua crawling yang terjadi dari User Agent Perplexity yang tidak dilaporkan dideteksi dan diblokir di sistem manajemen bot Cloudflare
  • Pelanggan yang mengaktifkan aturan pemblokiran bot atau aturan tantangan yang sudah ada di Cloudflare sudah termasuk dalam area terlindungi
  • Aturan manajemen untuk memblokir crawler stealth tersedia untuk seluruh pelanggan (termasuk pelanggan gratis)
  • Setelah pengumuman Content Independence Day, lebih dari 2,5 juta situs web menerapkan kebijakan larangan AI crawling
  • Menanggapi upaya evasion yang terus berkembang dari operator bot, Cloudflare juga terus mengembangkan kerangka kerja dan teknologinya

Upaya kebijakan dan proyeksi ke depan

  • Cloudflare secara aktif berpartisipasi bersama para ahli teknis dan kebijakan global, termasuk IETF, dalam diskusi untuk standardisasi perluasan robots.txt
  • Maju menuju penetapan aturan crawler yang dapat dipercaya dan menekankan transparansi serta kepatuhan di tengah ekosistem AI dan crawler yang berubah cepat

Belum ada komentar.

Belum ada komentar.