Cloudflare /crawl mendukung crawling seluruh situs web dengan satu panggilan API

(developers.cloudflare.com)

11 poin oleh GN⁺ 2026-03-11 | 4 komentar | Bagikan ke WhatsApp

Cloudflare menghadirkan endpoint /crawl baru di Browser Rendering dalam beta publik, yang memungkinkan crawling seluruh situs web hanya dengan satu panggilan API
Dengan mengirimkan URL awal, sistem akan menelusuri halaman secara otomatis, merender dengan browser headless, lalu mengembalikan hasil dalam format HTML, Markdown, JSON
Menyediakan berbagai fitur seperti output JSON terstruktur berbasis Workers AI, kontrol cakupan seperti kedalaman crawling, batas jumlah halaman, pola wildcard, serta incremental crawling dan mode statis
Mematuhi aturan robots.txt dan juga mendukung crawl-delay untuk mencegah lalu lintas yang tidak normal
Dapat digunakan untuk pelatihan model, membangun pipeline RAG, serta riset dan pemantauan konten di seluruh situs

Ringkasan endpoint /crawl

Endpoint /crawl yang baru ditambahkan ke layanan Browser Rendering Cloudflare menyediakan kemampuan untuk menelusuri seluruh situs web dan mengumpulkan konten dengan satu panggilan API
- Pengguna cukup mengirimkan URL awal, lalu sistem akan otomatis mengikuti tautan, merender halaman, dan mengembalikan hasil
- Format hasil yang dikembalikan dapat dipilih antara HTML, Markdown, dan JSON terstruktur
Fitur ini tersedia dalam status beta publik (open beta) dan dapat digunakan di paket Workers Free maupun Paid
Pekerjaan crawling dijalankan secara asinkron (asynchronous)
- Setelah mengirimkan URL, pengguna akan menerima job ID, lalu dapat mengambil hasil saat pemrosesan selesai
- Halaman diproses secara berurutan, dan hasil yang sudah selesai dapat diperiksa secara bertahap

Fitur utama

Dukungan berbagai format output
- Mengembalikan hasil dalam berbagai format seperti HTML, Markdown, dan JSON
- Format JSON disediakan sebagai data terstruktur melalui Workers AI
Kontrol cakupan crawling (crawl scope controls)
- Mendukung pengaturan kedalaman crawling (depth), batas jumlah halaman, serta penyertaan/pengecualian pola URL
Penemuan halaman otomatis (automatic page discovery)
- Menemukan URL secara otomatis berdasarkan sitemap, tautan halaman, atau keduanya
Incremental crawling
- Menggunakan parameter modifiedSince dan maxAge untuk melewati halaman yang tidak berubah sehingga menghemat waktu dan biaya
Mode statis (static mode)
- Saat render: false diatur, browser tidak dijalankan dan hanya HTML statis yang diambil, sehingga crawling situs statis menjadi lebih cepat
Bot yang berperilaku baik (well-behaved bot)
- Mematuhi arahan di robots.txt dan juga mengenali pengaturan crawl-delay

Penggunaan dan dokumentasi referensi

Endpoint ini berguna untuk pengumpulan data pelatihan model, membangun pipeline RAG, serta riset dan pemantauan konten situs
Pengguna dapat melihat pengaturannya di dokumentasi crawl endpoint
Jika menetapkan situs sendiri sebagai target crawling, perlu meninjau praktik terbaik robots.txt dan sitemap

Paket yang tersedia

Tersedia di paket Workers Free dan Paid

4 komentar

hmmhmmhm 2026-03-11

Saya sudah mencoba sekilas, tapi sepertinya ini tidak bisa menembus pemblokiran bot. Untuk sekarang saya rasa saya masih akan lebih sering memakai apify atau zyte.. haha

xguru 2026-03-11

Apakah ini juga bisa menembus fitur pemblokiran bot Cloudflare?
Jadi mereka jual tombak sekaligus perisainya??
Rasanya agak aneh haha

eoeoe 2026-03-12

Ini benar-benar awal dari Everybody's Marble wkwkwk
Kemampuan khusus entah apa yang meniadakan kemampuan entah apa untuk mempertahankan kartu entah apa....

GN⁺ 2026-03-11

Komentar Hacker News

Dalam pengalaman saya, ini tidak berfungsi pada halaman yang dilindungi Cloudflare
Sayangnya, ini seperti menciptakan masalah sendiri lalu menjual solusinya kembali
- Mungkin masih oke kalau setidaknya bisa melewati bot protection milik Azure
Agak mengejutkan bahwa Cloudflare tidak meng-host versi yang sudah discrape sebelumnya dari situs web yang menggunakan proksi mereka
Misalnya, mereka bisa saja menyediakan sesuatu seperti https://www.example.com/cdn-cgi/cached-contents.json, karena kontennya sudah ada di cache, jadi menurut saya tidak perlu lewat layanan scraping atau API terpisah
Tentu ada alasan kenapa mereka tidak melakukannya, tetapi tetap mengejutkan bahwa ini bukan opsi bawaan
- Membuka dump cache seperti itu akan sepenuhnya merusak asumsi privasi dan hak cipta dari sumber asli
  Kontrol akses mungkin bisa ditambahkan, tetapi itu pada akhirnya sama saja dengan membuat API CDN yang rumit yang sebenarnya tidak diinginkan siapa pun, dan juga menimbulkan masalah hukum
  Jarak antara “JSON yang praktis” dan “menyerahkan seluruh situs ke AI scraper” sangat tipis
- Konversi ke JSON memakai CPU, dan jika hasilnya disimpan maka ruang cache akan menjadi dua kali lipat
  Jika konversi hanya dilakukan saat ada permintaan, beban ke origin bisa dikurangi sambil tetap menjaga efisiensi cache
  Saat saya bekerja di CDN, kami memakai 'second hit caching' untuk meningkatkan rasio cache hit — artinya hanya menyimpan ke cache saat permintaan kedua datang
- Tidak persis sama, tetapi Cloudflare sebenarnya sudah menyediakan fungsi yang mirip
  Jika fitur Markdown for Agents diaktifkan, saat sistem AI meminta text/markdown, HTML akan dikonversi ke Markdown secara real-time
- Sebenarnya, mungkin saja secara internal mereka sudah menyajikan konten publik berbasis cache dengan cara seperti ini
- Namun, pendekatan seperti ini mungkin hanya cocok untuk situs sederhana; untuk situs kompleks seperti SPA, tetap dibutuhkan layanan scraping yang memerlukan rendering browser
Cloudflare menjual perlindungan anti-scraping sambil sekaligus menjual layanan scraping, dan itu terasa seperti organisasi kriminal
Ini dimungkinkan karena pengaruh mereka di seluruh internet
- Tidak begitu. Ini dijelaskan di dokumentasi resmi
- DNS gratis hanyalah sebagian kecil dari keseluruhan, dan kekuatan sebenarnya ada pada layanan caching, routing, dan perlindungan DDoS
  DNS dipakai untuk pengumpulan data dan citra “baik”
- Mereka bukan sekadar menjual perlindungan anti-scraping, tetapi perlindungan DDoS berbasis web
- Cloudflare tampaknya ingin berperan sebagai perantara antara publisher dan perusahaan AI
  Publisher berada di belakang Cloudflare, dan jika perusahaan AI ingin datanya, mereka harus mengaksesnya lewat Cloudflare dengan membayar
  Pelanggan utamanya bukan pengguna biasa, melainkan perusahaan AI
- Endpoint /crawl menghormati robots.txt
  Artinya, URL yang dilarang untuk dicrawl akan ditandai di respons dengan "status": "disallowed"
Mengekspos crawl endpoint yang terstruktur terasa seperti evolusi alami dari robots.txt atau sitemap
Jika lebih banyak situs menyediakan titik masuk yang bisa dibaca mesin seperti ini, pengindeksan akan jauh lebih efisien
Saat ini banyak pemborosan karena crawler terus menjelajahi ulang struktur yang sama
- Jika kita tetap memakai REST, sepertinya pemborosan pengindeksan akan jauh lebih kecil
  Saya lebih suka API dirancang untuk manusia, lalu penyedia LLM yang melakukan optimasi di atasnya
- Sebenarnya semantic HTML sudah menjalankan peran itu
  HTML dan DOM pada dasarnya adalah struktur untuk dibaca mesin
  Tidak perlu menciptakan sesuatu yang baru; cukup manfaatkan teknologi yang ada dengan benar
- Yang diuntungkan dari crawling yang tidak efisien hanyalah vendor solusi anti-bot
- Tetapi struktur seperti ini juga bisa memperburuk serangan rantai pasok
  Ini bisa disalahgunakan, misalnya dengan menampilkan halaman normal ke manusia dan halaman berbeda ke bot
- Pada akhirnya, menampilkan konten yang berbeda ke crawler dan manusia memang menimbulkan masalah mendasar
Sebenarnya ini bisa berguna untuk arsip web, jadi sayang sekali tidak ada dukungan untuk format WARC
Itu akan bermanfaat bagi jurnalis atau peneliti
Server asal masih tetap bisa mendeteksi dan memblokir permintaan Browser Rendering dari Cloudflare
Ini bisa dibedakan lewat header CF-Worker, dan dapat difilter dengan aturan WAF atau middleware
Namun, permintaan ini berasal dari Cloudflare ASN 13335 dan memiliki bot score yang rendah, jadi pertahanan berbasis skor sederhana tidak akan efektif
Pada akhirnya, rate limiting di level aplikasi dan analisis perilaku lebih efektif
Konflik strukturalnya memang ada, tetapi situasinya mirip dengan mesin pencari yang menyediakan alat webmaster
- Mereka mengikuti robots.txt, jadi itu cara yang paling sederhana
Saya penasaran apakah crawler ini berjalan sebelum atau sesudah logika pemblokiran bot
- Berjalan di sisi depan — lihat dokumentasi resmi
Saya pernah berpikir akan bagus jika saya bisa menyediakan versi situs saya yang sudah dicrawl dengan baik
Jika admin situs diberi fungsi seperti itu, crawler bisa mengaksesnya hanya dengan membayar biaya transfer
Mungkin ini juga bisa diimplementasikan dengan menjalankan job crawl terhadap situs saya sendiri, lalu menyajikannya melalui subdomain static.
- Tapi saya kurang paham untuk apa gunanya
  Jika situsnya statis, ya tinggal render dan host sebagai HTML biasa; kalau dinamis, saya ragu snapshot akan banyak artinya
  Menambahkan caching mungkin pendekatan yang lebih baik
Akhir-akhir ini rasanya Cloudflare mengambil semua fitur keren
Jadi penasaran AWS sebenarnya sedang mengerjakan apa
Fitur ini benar-benar mengesankan
Cloudflare bergerak lebih dulu ke arah masa depan