- Cloudflare menghadirkan endpoint /crawl baru di Browser Rendering dalam beta publik, yang memungkinkan crawling seluruh situs web hanya dengan satu panggilan API
- Dengan mengirimkan URL awal, sistem akan menelusuri halaman secara otomatis, merender dengan browser headless, lalu mengembalikan hasil dalam format HTML, Markdown, JSON
- Menyediakan berbagai fitur seperti output JSON terstruktur berbasis Workers AI, kontrol cakupan seperti kedalaman crawling, batas jumlah halaman, pola wildcard, serta incremental crawling dan mode statis
- Mematuhi aturan robots.txt dan juga mendukung crawl-delay untuk mencegah lalu lintas yang tidak normal
- Dapat digunakan untuk pelatihan model, membangun pipeline RAG, serta riset dan pemantauan konten di seluruh situs
Ringkasan endpoint /crawl
- Endpoint /crawl yang baru ditambahkan ke layanan Browser Rendering Cloudflare menyediakan kemampuan untuk menelusuri seluruh situs web dan mengumpulkan konten dengan satu panggilan API
- Pengguna cukup mengirimkan URL awal, lalu sistem akan otomatis mengikuti tautan, merender halaman, dan mengembalikan hasil
- Format hasil yang dikembalikan dapat dipilih antara HTML, Markdown, dan JSON terstruktur
- Fitur ini tersedia dalam status beta publik (open beta) dan dapat digunakan di paket Workers Free maupun Paid
- Pekerjaan crawling dijalankan secara asinkron (asynchronous)
- Setelah mengirimkan URL, pengguna akan menerima job ID, lalu dapat mengambil hasil saat pemrosesan selesai
- Halaman diproses secara berurutan, dan hasil yang sudah selesai dapat diperiksa secara bertahap
Fitur utama
- Dukungan berbagai format output
- Mengembalikan hasil dalam berbagai format seperti HTML, Markdown, dan JSON
- Format JSON disediakan sebagai data terstruktur melalui Workers AI
- Kontrol cakupan crawling (crawl scope controls)
- Mendukung pengaturan kedalaman crawling (depth), batas jumlah halaman, serta penyertaan/pengecualian pola URL
- Penemuan halaman otomatis (automatic page discovery)
- Menemukan URL secara otomatis berdasarkan sitemap, tautan halaman, atau keduanya
- Incremental crawling
- Menggunakan parameter
modifiedSince dan maxAge untuk melewati halaman yang tidak berubah sehingga menghemat waktu dan biaya
- Mode statis (static mode)
- Saat
render: false diatur, browser tidak dijalankan dan hanya HTML statis yang diambil, sehingga crawling situs statis menjadi lebih cepat
- Bot yang berperilaku baik (well-behaved bot)
- Mematuhi arahan di robots.txt dan juga mengenali pengaturan crawl-delay
Penggunaan dan dokumentasi referensi
Paket yang tersedia
- Tersedia di paket Workers Free dan Paid
4 komentar
Saya sudah mencoba sekilas, tapi sepertinya ini tidak bisa menembus pemblokiran bot. Untuk sekarang saya rasa saya masih akan lebih sering memakai apify atau zyte.. haha
Apakah ini juga bisa menembus fitur pemblokiran bot Cloudflare?
Jadi mereka jual tombak sekaligus perisainya??
Rasanya agak aneh haha
Ini benar-benar awal dari Everybody's Marble wkwkwk
Kemampuan khusus entah apa yang meniadakan kemampuan entah apa untuk mempertahankan kartu entah apa....
Komentar Hacker News
Dalam pengalaman saya, ini tidak berfungsi pada halaman yang dilindungi Cloudflare
Sayangnya, ini seperti menciptakan masalah sendiri lalu menjual solusinya kembali
Agak mengejutkan bahwa Cloudflare tidak meng-host versi yang sudah discrape sebelumnya dari situs web yang menggunakan proksi mereka
Misalnya, mereka bisa saja menyediakan sesuatu seperti https://www.example.com/cdn-cgi/cached-contents.json, karena kontennya sudah ada di cache, jadi menurut saya tidak perlu lewat layanan scraping atau API terpisah
Tentu ada alasan kenapa mereka tidak melakukannya, tetapi tetap mengejutkan bahwa ini bukan opsi bawaan
Kontrol akses mungkin bisa ditambahkan, tetapi itu pada akhirnya sama saja dengan membuat API CDN yang rumit yang sebenarnya tidak diinginkan siapa pun, dan juga menimbulkan masalah hukum
Jarak antara “JSON yang praktis” dan “menyerahkan seluruh situs ke AI scraper” sangat tipis
Jika konversi hanya dilakukan saat ada permintaan, beban ke origin bisa dikurangi sambil tetap menjaga efisiensi cache
Saat saya bekerja di CDN, kami memakai 'second hit caching' untuk meningkatkan rasio cache hit — artinya hanya menyimpan ke cache saat permintaan kedua datang
Jika fitur Markdown for Agents diaktifkan, saat sistem AI meminta
text/markdown, HTML akan dikonversi ke Markdown secara real-timeCloudflare menjual perlindungan anti-scraping sambil sekaligus menjual layanan scraping, dan itu terasa seperti organisasi kriminal
Ini dimungkinkan karena pengaruh mereka di seluruh internet
DNS dipakai untuk pengumpulan data dan citra “baik”
Publisher berada di belakang Cloudflare, dan jika perusahaan AI ingin datanya, mereka harus mengaksesnya lewat Cloudflare dengan membayar
Pelanggan utamanya bukan pengguna biasa, melainkan perusahaan AI
/crawlmenghormatirobots.txtArtinya, URL yang dilarang untuk dicrawl akan ditandai di respons dengan
"status": "disallowed"Mengekspos crawl endpoint yang terstruktur terasa seperti evolusi alami dari
robots.txtatausitemapJika lebih banyak situs menyediakan titik masuk yang bisa dibaca mesin seperti ini, pengindeksan akan jauh lebih efisien
Saat ini banyak pemborosan karena crawler terus menjelajahi ulang struktur yang sama
Saya lebih suka API dirancang untuk manusia, lalu penyedia LLM yang melakukan optimasi di atasnya
HTML dan DOM pada dasarnya adalah struktur untuk dibaca mesin
Tidak perlu menciptakan sesuatu yang baru; cukup manfaatkan teknologi yang ada dengan benar
Ini bisa disalahgunakan, misalnya dengan menampilkan halaman normal ke manusia dan halaman berbeda ke bot
Sebenarnya ini bisa berguna untuk arsip web, jadi sayang sekali tidak ada dukungan untuk format WARC
Itu akan bermanfaat bagi jurnalis atau peneliti
Server asal masih tetap bisa mendeteksi dan memblokir permintaan Browser Rendering dari Cloudflare
Ini bisa dibedakan lewat header
CF-Worker, dan dapat difilter dengan aturan WAF atau middlewareNamun, permintaan ini berasal dari Cloudflare ASN 13335 dan memiliki bot score yang rendah, jadi pertahanan berbasis skor sederhana tidak akan efektif
Pada akhirnya, rate limiting di level aplikasi dan analisis perilaku lebih efektif
Konflik strukturalnya memang ada, tetapi situasinya mirip dengan mesin pencari yang menyediakan alat webmaster
robots.txt, jadi itu cara yang paling sederhanaSaya penasaran apakah crawler ini berjalan sebelum atau sesudah logika pemblokiran bot
Saya pernah berpikir akan bagus jika saya bisa menyediakan versi situs saya yang sudah dicrawl dengan baik
Jika admin situs diberi fungsi seperti itu, crawler bisa mengaksesnya hanya dengan membayar biaya transfer
Mungkin ini juga bisa diimplementasikan dengan menjalankan job crawl terhadap situs saya sendiri, lalu menyajikannya melalui subdomain
static.Jika situsnya statis, ya tinggal render dan host sebagai HTML biasa; kalau dinamis, saya ragu snapshot akan banyak artinya
Menambahkan caching mungkin pendekatan yang lebih baik
Akhir-akhir ini rasanya Cloudflare mengambil semua fitur keren
Jadi penasaran AWS sebenarnya sedang mengerjakan apa
Fitur ini benar-benar mengesankan
Cloudflare bergerak lebih dulu ke arah masa depan