Perplexity Menggunakan Crawler Tersembunyi yang Tidak Dilaporkan untuk Menghindari Aturan Larangan Crawling

(blog.cloudflare.com)

4 poin oleh GN⁺ 2025-08-05 | 2 komentar | Bagikan ke WhatsApp

Perplexity menggunakan crawler web beridentitas tersembunyi untuk menghindari arahan larangan crawling
Terdeteksi tindakan seperti mengabaikan berkas robots.txt serta terus mengubah IP dan User Agent
Dalam eksperimen domain baru, terbukti bahwa Perplexity tetap mengakses konten situs meskipun pengaturan larangan diterapkan
Cloudflare memperbarui aturan pengelolaan dengan mengecualikan Perplexity dari bot resmi untuk mencegah perilaku semacam ini
Berbeda dengan operator bot yang baik seperti OpenAI, perilaku penyamaran Perplexity dikritik sebagai masalah

Ikhtisar tindakan Perplexity yang menggunakan crawler tersembunyi

Perplexity adalah mesin jawaban berbasis AI yang pada awalnya meng-crawl situs web dengan User Agent yang dilaporkan secara resmi
Namun saat menghadapi pemblokiran jaringan, ia mengubah User Agent guna menyembunyikan identitas dan mencoba mengakses melalui berbagai ASN (Autonomous System Number)
Dalam proses ini ditemukan banyak upaya akses yang mengabaikan atau tidak melakukan permintaan terhadap berkas robots.txt

Prinsip kepercayaan antara situs web dan crawler serta perilaku bermasalah

Internet selama puluhan tahun berkembang berdasarkan kepercayaan, dan crawler pada prinsipnya harus memiliki transparansi, kejelasan tujuan, dan standar perilaku yang jelas
Crawler harus menghormati petunjuk serta prioritas pemilik situs, dan perilaku yang diamati dari Perplexity ini melanggar prinsip tersebut
Akibatnya, Cloudflare mengecualikan Perplexity dari daftar bot resmi dan menerapkan aturan manajemen tambahan untuk mendeteksi dan memblokir crawler stealth

Kasus uji dan deteksi

Cloudflare menguji perilaku crawling Perplexity dengan membuat domain baru
- Mengonfigurasi robots.txt agar menolak semua akses otomatis dan menambahkan aturan WAF
- Meskipun User Agent dan IP resmi Perplexity diblokir, tetap terbukti ada pengumpulan konten situs dengan menyembunyikan identitas
Perplexity mencoba mengakses konten baik dengan User Agent resmi maupun User Agent stealth, dan yang terakhir menyamar sebagai browser nyata (Chrome)

Kategori	Contoh User Agent	Permintaan per hari
Resmi	Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user)	20 juta~25 juta
Stealth	Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36	3 juta~6 juta

Menggunakan beberapa IP dan ASN yang tidak termasuk dalam rentang IP resmi serta terus mengganti IP untuk mencoba melewati kebijakan pemblokiran
Hal ini teridentifikasi pada puluhan ribu domain dan jutaan permintaan, dan Cloudflare menggunakan pembelajaran mesin serta sinyal jaringan untuk mengklasifikasikan crawler tersebut

Kasus dan batasan penghindaran crawler stealth

Saat crawler stealth diblokir, Perplexity tampak mencoba menyediakan jawaban menggunakan materi dari situs web lain
Namun dalam skenario ini juga terdeteksi penurunan kejelasan dan kedalaman konten secara signifikan

Standar operator bot yang baik dan praktik terbaik OpenAI

Bot yang dikelola dengan baik seharusnya memiliki prinsip transparansi, identitas yang jelas, keterbukaan tujuan aktivitas, penggunaan bot terpisah untuk setiap aktivitas, dan kepatuhan pada aturan webmaster (seperti robots.txt)
OpenAI menyediakan IP dan User Agent resmi, serta tujuan aktivitas crawler secara transparan, dan mematuhi robots.txt secara ketat
Dalam eksperimen nyata, crawler ChatGPT menghentikan upaya crawling tambahan begitu menemukan aturan disallow atau pemblokiran jaringan
Mereka juga secara aktif mengadopsi mekanisme autentikasi terstandar seperti Web Bot Auth

Metode perlindungan dan respons

Semua crawling yang terjadi dari User Agent Perplexity yang tidak dilaporkan dideteksi dan diblokir di sistem manajemen bot Cloudflare
Pelanggan yang mengaktifkan aturan pemblokiran bot atau aturan tantangan yang sudah ada di Cloudflare sudah termasuk dalam area terlindungi
Aturan manajemen untuk memblokir crawler stealth tersedia untuk seluruh pelanggan (termasuk pelanggan gratis)
Setelah pengumuman Content Independence Day, lebih dari 2,5 juta situs web menerapkan kebijakan larangan AI crawling
Menanggapi upaya evasion yang terus berkembang dari operator bot, Cloudflare juga terus mengembangkan kerangka kerja dan teknologinya

Upaya kebijakan dan proyeksi ke depan

Cloudflare secara aktif berpartisipasi bersama para ahli teknis dan kebijakan global, termasuk IETF, dalam diskusi untuk standardisasi perluasan robots.txt
Maju menuju penetapan aturan crawler yang dapat dipercaya dan menekankan transparansi serta kepatuhan di tengah ekosistem AI dan crawler yang berubah cepat

2 komentar

kaydash 2025-08-07

Dukung Perplexity

GN⁺ 2025-08-05

Pendapat Hacker News

Saya rasa masalah ini memang sangat sulit diselesaikan
1. Ketika saya mengakses situs web sebagai manusia, kita sepakat bahwa saya memang berhak melihat kontennya.
2. Memasang software di komputer saya, misalnya pemblokir iklan, agar mengubah konten sebelum tampil, adalah keputusan saya sendiri, dan saya pikir wajar jika situs web tidak mengetahui hal itu. Mayoritas pengguna setuju, tetapi beberapa situs merepotkan pengguna agar mengubah software yang terpasang.
3. Namun, saat saya sendiri tidak bisa mengonsumsi konten karena dibanjiri iklan, JavaScript, dan popup lalu memakai LLM (large language model) untuk merangkumnya, saya tidak mengerti mengapa akses lewat Firefox seharusnya diperlakukan berbeda secara hukum dibanding LLM yang mengakses situs tersebut atas nama saya.
- Beberapa toko tidak menyukai layanan seperti Instacart atau Postmates. Tidak masalah apakah Anda berbelanja sendiri atau memindai semua barang dengan ponsel untuk membandingkan harga. Tapi mereka tidak mengizinkan layanan pihak ketiga mengirim karyawannya sendiri untuk mengecek stok atau mengambil barang setelah pemesanan online. Alasannya beragam: tidak ingin kehilangan kontrol atas persepsi kualitas produk (seperti makanan/minuman yang menjadi dingin, harga yang naik, atau penggantian yang salah), keinginan staf melayani langsung dan membangun hubungan dengan pelanggan, atau karena sekadar menolak pengiriman oleh pihak ketiga. Menolak entitas tidak terkait untuk beroperasi di toko fisik saya adalah keputusan yang sangat masuk akal. Saya melihat logika yang sama berlaku juga untuk layanan digital.
- Ini soal skala. Langkah berikutnya yang Anda maksud mungkin hari ketika orang-orang menjalankan bot riset pribadi untuk mencari jawaban di banyak situs dan meminta halaman dengan kecepatan jauh lebih tinggi daripada manusia. Kita perlu memikirkan sampai titik mana yang masih bisa ditoleransi. Apakah crawling pribadi itu oke? Atau bot yang makin cerdas hingga bisa memprediksi apa yang akan ditanyakan pengguna dan selalu merayapi data terbaru? Atau apakah barulah menjadi masalah saat skalanya membesar dan terjadi crawling massal untuk banyak pengguna?
- Saya pikir lebih baik membedakan istilah "crawler" dan "fetcher". Belakangan ini saya terlibat mengembangkan alat deteksi agen AI (lihat: https://stytch.com/blog/introducing-is-agent/); saya percaya ada nilai nyata jika operator situs dapat mengidentifikasi agen AI lalu menyarankan metode pembatasan akses. Sebaliknya, crawler dapat menyamar sebagai crawler bereputasi dan mengabaikan robots.txt sambil berbuat hal buruk. Solusi standar saat ini memang reverse lookup DNS IP, tetapi ini juga merepotkan pihak pengelola situs. Menurut saya, akan lebih efisien jika memblokir semua akses yang aneh.
- Saya setuju model iklan memang punya banyak masalah. Namun pemisahan antara pembuat konten dan pengguna oleh perusahaan AI bukanlah web yang ingin saya lihat ke depannya. Misalnya seseorang mengelola newsletter berbayar, menampilkan sebagian konten gratis untuk menarik pengunjung yang tertarik, lalu mengubah sebagian menjadi pelanggan berbayar. Pembuat seperti ini tentu mengharapkan "lihat konten sekaligus upsell (mengajak langganan)" terjadi. Jika AI crawler melewati proses itu dan langsung mengambil konten penting, tidak ada alasan untuk menaruhnya gratis di web. Jika AI crawler yang menang, akhirnya semuanya rugi.
- Dunia web tidak selalu penuh iklan. Mesin pencari sebelumnya beroperasi atas kontrak implisit: "Jika kami meng-crawl halaman Anda, Anda beri kami trafik." Crawler AI untuk model tertutup memecahkan kontrak itu. Mereka memakai data untuk membuat model dan memberi kemampuan QA, sementara perusahaan penyedia LLM meraih pendapatan miliaran dari pengetahuan yang didapat lewat crawler dari situs web, tetapi situs web itu tidak menerima apa pun. Bahkan jika diklaim hanya untuk permintaan pengguna, penyedia LLM tetap mengantongi sebagian besar pendapatan, dan penulis konten asli malah tidak mendapat kunjungan pun. Jika Perplexity menganggap boleh mengambil halaman untuk permintaan pengguna dengan mengabaikan robots.txt dan pemblokiran, sulit berharap data itu tidak dipakai untuk training nanti.
Perubahan cepat ini terasa menarik. Web akan lebih baik jika berfokus pada komunitas yang lebih kecil dan lebih berorientasi anggota (ini tidak harus bermakna geografis, melainkan sosial). Sepertinya cara membangun komunitas sendiri dan mengundang orang ke ruang yang lebih privat akan makin penting. Web terbuka era lama mungkin akan menjadi ruang bagi mesin. Dulu kita benci kata "bubble" (gelembung), padahal bubble memang alamiah, dan jika bukan untuk diri sendiri semata maka jelas punya makna. Ketika web dibanjiri mesin dan konten mesin, akhirnya orang akan belajar lagi cara terhubung dengan sesamanya.
Saat menguji dengan pertanyaan ke Perplexity AI dan melihat bahwa konten domain yang diblokir pun dijelaskan secara detail, saya merasa isi ini membuat kesimpulan artikel yang tampak seperti materi marketing yang mengkritik Perplexity menjadi kabur. Tidak jelas apakah Perplexity melakukan crawling langsung (menjelajahi semua halaman secara sistematis) atau hanya mengambil saat ada permintaan pengguna. Sebagian besar orang melihat kedua hal ini berbeda, dan opsi kedua jauh lebih bisa diterima.
- Ada nuansa iklan Perplexity. Lagi-lagi Cloudflare diposisikan sebagai pihak baik, Perplexity sebagai pihak buruk, sementara Cloudflare pun juga sedang gencar melakukan marketing dengan narasi menyelamatkan web. Dasarnya tipis dan keduanya tampak seperti "pertarungan raksasa," sehingga bagi saya alur ini mungkin justru memberi keuntungan PR bagi Perplexity.
- Secara prinsip, mengambil halaman untuk pengguna memang bisa dibolehkan, namun melihat jejak perusahaan AI yang sudah mengabaikan aturan hak cipta dan lain-lain, saya tidak bisa menutup kemungkinan isi halaman juga disimpan untuk dipakai dalam training atau crawling tambahan di masa depan.
- Dalam spesifikasi HTTP pun, pembedaan semacam ini tampak muncul secara implisit, misalnya pada konsep dan nama "user agent."
- Jika AI mengarsipkan atau meng-cache semua hasil agar dipakai banyak orang, itu pada akhirnya tak beda dengan scraper. Cukup melatih modelnya pada data cache. Ia menarik nilai dengan mengambil konten penting sekaligus menjadi perantara dan sekaligus mendapatkan sinyal nilai data.
Menurut jawaban Perplexity ke TechCrunch, postingan blog Cloudflare disebut sebagai "sales-pitch" semata. Di samping itu, mereka mengklaim bahwa screenshot dari blog tersebut menunjukkan "tidak ada konten yang diakses." Mereka juga menambahkan bahwa bot yang disebut di blog itu bukan milik mereka.
Perplexity sendiri memblokir crawler.
```
$ curl -sI https://www.perplexity.ai | head -1
HTTP/2 403
```
Meskipun menipu dengan browser user agent, hasilnya tetap diblokir. Sepertinya mereka menggunakan cara deteksi crawler yang cukup canggih.
- Ada yang sudah pernah mengajukan pertanyaan ini ke CEO: https://x.com/AravSrinivas/status/1819610286036488625
- Yang lucu, Perplexity juga memakai Cloudflare.
Saya percaya selalu crawler "stealth" yang menang. Dengan membuat scraper lewat alat otomasi browser (W3C WebDriver2, Chrome DevTools Protocol), deteksi hampir mustahil dilakukan. CAPTCHA bisa dipasang, tetapi pengembang juga dapat merancang workflow human-in-the-loop sehingga selama jam kerja pusat panggilan, manusia yang menanganinya. Pengujian game 15 tahun lalu pun memakai teknik scraping berbasis raster (gambar layar), ini akan sangat menyulitkan "internet police" saat ini.
- Saya rasa alasan crawler stealth tak akan selalu menang karena pada akhirnya akses ke setiap situs bernilai akan mensyaratkan remote attestation.
Saya pikir internet butuh sistem micro-payment. Jika crawler membayar bahkan 1 sen per halaman, crawling 24 jam tentu disambut. Jika saya sendiri membayar 1 sen per konten, tidak perlu menahan aturan click-lab atau aturan iklan aneh. Akses gratis tidak selalu perlu diblokir (sebenarnya akan diblokir, tetapi itu pun berarti sesuatu). Misalnya, saya membayangkan Reddit memberlakukan biaya tinggi lalu memberi pengembalian untuk konten bagus guna meningkatkan kualitas. Sistem baru juga mungkin diterapkan: "setoran-keluar-penalti," di mana saat mendaftar Anda memberikan jaminan, jika diban dana disita, dan jika beraktivitas normal Anda refund. Ini membuat pengelolaan lebih sederhana dan meningkatkan kualitas konten. Gagasan seperti ini dibutuhkan karena web makin penuh sampah. Ide lain: membayar Google per pencarian dan bisa meminta pengembalian jika hasilnya buruk. AI Google menilai kepuasan; jika pencarian memuaskan tidak tercapai, hanya menampilkan daftar populer yang penuh iklan. Jadi pengguna menyerahkan uangnya ke mesin pencari lain.
Jika ada pihak yang merayapi situs secara serampangan hingga mengancam keandalan internet publik, pendapat bahwa institusi seperti Cloudflare secara terbuka mengkritik "scraping penipuan" sangat positif. Fakta bahwa kontroversi ini bisa memicu percakapan itu sendiri sudah berarti. Pada akhirnya, pemain utama perlu kembali ke era mesin pencari yang paling tidak setia pada aturan dasar seperti dulu.
- Kini ini memang era tanpa rasa malu, jadi mempermalukan seseorang di depan publik rasanya tak banyak pengaruh.
Mesin pencari pribadi yang saya bangun sendiri juga bisa merealisasikan sebagian kemampuan setara Perplexity. Saat dibandingkan dengan kerabat, ia mendapat hampir preferensi setengah-setengah dengan Perplexity. Mesin itu mampu mengunduh halaman web untuk riset. Tapi kalau kena captcha atau diblokir, langsung dihentikan. Sebaliknya, perusahaan IT raksasa merasa bisa melakukan apa saja karena punya modal ventura miliaran, dan sikap seperti ini membuat saya marah.
Klaim yang menyebut bahwa "lebih dari 2,5 juta situs memilih memblokir AI training secara keseluruhan dengan fitur managed robots.txt Cloudflare atau aturan pemblokiran AI crawler" memang muncul. Faktanya, justru Cloudflare CEO yang menerapkan fitur itu sebagai default untuk semua pelanggannya. Jika perusahaan ingin rekomendasi AI atau mementingkan traffic, mereka harus mematikannya agar kerugian finansial terhindar.
- Klaim "dijadikan default" itu bohong. Saat saya periksa sendiri situs-situs Cloudflare, fitur ini tidak otomatis aktif bila tidak ada setting apa pun. Jika robots.txt tidak ada, hanya muncul pesan "pertimbangkan aktifkan managed robots.txt Cloudflare." Jika file yang ada tetap dipertahankan; notifikasi trafik AI pun tetap mati secara manual.
- Tentang klaim "jika mau rekomendasi AI maka harus mematikan setting ini", pemasaran konten, SEO yang digamifikasi, dan bombastisnya iklan sangat merusak kualitas Google Search. Sebaliknya, LLM (large language model) saat ini belum memperlihatkan "gamifikasi" sebanyak itu. Mungkin suatu saat LLM pun bisa memburuk seperti search yang rusak, tapi saya berharap OpenAI atau Anthropic menyadari bahwa penurunan kualitas pencarian itu merupakan salah satu akar berkurangnya trafik Google.
- Klaim "dijadikan default" itu sepenuhnya bohong. Secara nyata tidak ada pendaftaran otomatis ke fitur tersebut tanpa setting apa pun. Apalagi, bahkan jika klaim itu pernah benar sebelumnya, sekarang tidak lagi; sejak awal ini memang tidak sesuai fakta.

Perplexity Menggunakan Crawler Tersembunyi yang Tidak Dilaporkan untuk Menghindari Aturan Larangan Crawling

Ikhtisar tindakan Perplexity yang menggunakan crawler tersembunyi

Prinsip kepercayaan antara situs web dan crawler serta perilaku bermasalah

Kasus uji dan deteksi

Kasus dan batasan penghindaran crawler stealth

Standar operator bot yang baik dan praktik terbaik OpenAI

Metode perlindungan dan respons

Upaya kebijakan dan proyeksi ke depan

Bacaan terkait

2 komentar

Pendapat Hacker News