11 poin oleh GN⁺ 2026-03-11 | 4 komentar | Bagikan ke WhatsApp
  • Cloudflare menghadirkan endpoint /crawl baru di Browser Rendering dalam beta publik, yang memungkinkan crawling seluruh situs web hanya dengan satu panggilan API
  • Dengan mengirimkan URL awal, sistem akan menelusuri halaman secara otomatis, merender dengan browser headless, lalu mengembalikan hasil dalam format HTML, Markdown, JSON
  • Menyediakan berbagai fitur seperti output JSON terstruktur berbasis Workers AI, kontrol cakupan seperti kedalaman crawling, batas jumlah halaman, pola wildcard, serta incremental crawling dan mode statis
  • Mematuhi aturan robots.txt dan juga mendukung crawl-delay untuk mencegah lalu lintas yang tidak normal
  • Dapat digunakan untuk pelatihan model, membangun pipeline RAG, serta riset dan pemantauan konten di seluruh situs

Ringkasan endpoint /crawl

  • Endpoint /crawl yang baru ditambahkan ke layanan Browser Rendering Cloudflare menyediakan kemampuan untuk menelusuri seluruh situs web dan mengumpulkan konten dengan satu panggilan API
    • Pengguna cukup mengirimkan URL awal, lalu sistem akan otomatis mengikuti tautan, merender halaman, dan mengembalikan hasil
    • Format hasil yang dikembalikan dapat dipilih antara HTML, Markdown, dan JSON terstruktur
  • Fitur ini tersedia dalam status beta publik (open beta) dan dapat digunakan di paket Workers Free maupun Paid
  • Pekerjaan crawling dijalankan secara asinkron (asynchronous)
    • Setelah mengirimkan URL, pengguna akan menerima job ID, lalu dapat mengambil hasil saat pemrosesan selesai
    • Halaman diproses secara berurutan, dan hasil yang sudah selesai dapat diperiksa secara bertahap

Fitur utama

  • Dukungan berbagai format output
    • Mengembalikan hasil dalam berbagai format seperti HTML, Markdown, dan JSON
    • Format JSON disediakan sebagai data terstruktur melalui Workers AI
  • Kontrol cakupan crawling (crawl scope controls)
    • Mendukung pengaturan kedalaman crawling (depth), batas jumlah halaman, serta penyertaan/pengecualian pola URL
  • Penemuan halaman otomatis (automatic page discovery)
    • Menemukan URL secara otomatis berdasarkan sitemap, tautan halaman, atau keduanya
  • Incremental crawling
    • Menggunakan parameter modifiedSince dan maxAge untuk melewati halaman yang tidak berubah sehingga menghemat waktu dan biaya
  • Mode statis (static mode)
    • Saat render: false diatur, browser tidak dijalankan dan hanya HTML statis yang diambil, sehingga crawling situs statis menjadi lebih cepat
  • Bot yang berperilaku baik (well-behaved bot)
    • Mematuhi arahan di robots.txt dan juga mengenali pengaturan crawl-delay

Penggunaan dan dokumentasi referensi

Paket yang tersedia

  • Tersedia di paket Workers Free dan Paid

4 komentar

 
hmmhmmhm 2026-03-11

Saya sudah mencoba sekilas, tapi sepertinya ini tidak bisa menembus pemblokiran bot. Untuk sekarang saya rasa saya masih akan lebih sering memakai apify atau zyte.. haha

 
xguru 2026-03-11

Apakah ini juga bisa menembus fitur pemblokiran bot Cloudflare?
Jadi mereka jual tombak sekaligus perisainya??
Rasanya agak aneh haha

 
eoeoe 2026-03-12

Ini benar-benar awal dari Everybody's Marble wkwkwk
Kemampuan khusus entah apa yang meniadakan kemampuan entah apa untuk mempertahankan kartu entah apa....

 
GN⁺ 2026-03-11
Komentar Hacker News
  • Dalam pengalaman saya, ini tidak berfungsi pada halaman yang dilindungi Cloudflare
    Sayangnya, ini seperti menciptakan masalah sendiri lalu menjual solusinya kembali

    • Mungkin masih oke kalau setidaknya bisa melewati bot protection milik Azure
  • Agak mengejutkan bahwa Cloudflare tidak meng-host versi yang sudah discrape sebelumnya dari situs web yang menggunakan proksi mereka
    Misalnya, mereka bisa saja menyediakan sesuatu seperti https://www.example.com/cdn-cgi/cached-contents.json, karena kontennya sudah ada di cache, jadi menurut saya tidak perlu lewat layanan scraping atau API terpisah
    Tentu ada alasan kenapa mereka tidak melakukannya, tetapi tetap mengejutkan bahwa ini bukan opsi bawaan

    • Membuka dump cache seperti itu akan sepenuhnya merusak asumsi privasi dan hak cipta dari sumber asli
      Kontrol akses mungkin bisa ditambahkan, tetapi itu pada akhirnya sama saja dengan membuat API CDN yang rumit yang sebenarnya tidak diinginkan siapa pun, dan juga menimbulkan masalah hukum
      Jarak antara “JSON yang praktis” dan “menyerahkan seluruh situs ke AI scraper” sangat tipis
    • Konversi ke JSON memakai CPU, dan jika hasilnya disimpan maka ruang cache akan menjadi dua kali lipat
      Jika konversi hanya dilakukan saat ada permintaan, beban ke origin bisa dikurangi sambil tetap menjaga efisiensi cache
      Saat saya bekerja di CDN, kami memakai 'second hit caching' untuk meningkatkan rasio cache hit — artinya hanya menyimpan ke cache saat permintaan kedua datang
    • Tidak persis sama, tetapi Cloudflare sebenarnya sudah menyediakan fungsi yang mirip
      Jika fitur Markdown for Agents diaktifkan, saat sistem AI meminta text/markdown, HTML akan dikonversi ke Markdown secara real-time
    • Sebenarnya, mungkin saja secara internal mereka sudah menyajikan konten publik berbasis cache dengan cara seperti ini
    • Namun, pendekatan seperti ini mungkin hanya cocok untuk situs sederhana; untuk situs kompleks seperti SPA, tetap dibutuhkan layanan scraping yang memerlukan rendering browser
  • Cloudflare menjual perlindungan anti-scraping sambil sekaligus menjual layanan scraping, dan itu terasa seperti organisasi kriminal
    Ini dimungkinkan karena pengaruh mereka di seluruh internet

    • Tidak begitu. Ini dijelaskan di dokumentasi resmi
    • DNS gratis hanyalah sebagian kecil dari keseluruhan, dan kekuatan sebenarnya ada pada layanan caching, routing, dan perlindungan DDoS
      DNS dipakai untuk pengumpulan data dan citra “baik”
    • Mereka bukan sekadar menjual perlindungan anti-scraping, tetapi perlindungan DDoS berbasis web
    • Cloudflare tampaknya ingin berperan sebagai perantara antara publisher dan perusahaan AI
      Publisher berada di belakang Cloudflare, dan jika perusahaan AI ingin datanya, mereka harus mengaksesnya lewat Cloudflare dengan membayar
      Pelanggan utamanya bukan pengguna biasa, melainkan perusahaan AI
    • Endpoint /crawl menghormati robots.txt
      Artinya, URL yang dilarang untuk dicrawl akan ditandai di respons dengan "status": "disallowed"
  • Mengekspos crawl endpoint yang terstruktur terasa seperti evolusi alami dari robots.txt atau sitemap
    Jika lebih banyak situs menyediakan titik masuk yang bisa dibaca mesin seperti ini, pengindeksan akan jauh lebih efisien
    Saat ini banyak pemborosan karena crawler terus menjelajahi ulang struktur yang sama

    • Jika kita tetap memakai REST, sepertinya pemborosan pengindeksan akan jauh lebih kecil
      Saya lebih suka API dirancang untuk manusia, lalu penyedia LLM yang melakukan optimasi di atasnya
    • Sebenarnya semantic HTML sudah menjalankan peran itu
      HTML dan DOM pada dasarnya adalah struktur untuk dibaca mesin
      Tidak perlu menciptakan sesuatu yang baru; cukup manfaatkan teknologi yang ada dengan benar
    • Yang diuntungkan dari crawling yang tidak efisien hanyalah vendor solusi anti-bot
    • Tetapi struktur seperti ini juga bisa memperburuk serangan rantai pasok
      Ini bisa disalahgunakan, misalnya dengan menampilkan halaman normal ke manusia dan halaman berbeda ke bot
    • Pada akhirnya, menampilkan konten yang berbeda ke crawler dan manusia memang menimbulkan masalah mendasar
  • Sebenarnya ini bisa berguna untuk arsip web, jadi sayang sekali tidak ada dukungan untuk format WARC
    Itu akan bermanfaat bagi jurnalis atau peneliti

  • Server asal masih tetap bisa mendeteksi dan memblokir permintaan Browser Rendering dari Cloudflare
    Ini bisa dibedakan lewat header CF-Worker, dan dapat difilter dengan aturan WAF atau middleware
    Namun, permintaan ini berasal dari Cloudflare ASN 13335 dan memiliki bot score yang rendah, jadi pertahanan berbasis skor sederhana tidak akan efektif
    Pada akhirnya, rate limiting di level aplikasi dan analisis perilaku lebih efektif
    Konflik strukturalnya memang ada, tetapi situasinya mirip dengan mesin pencari yang menyediakan alat webmaster

    • Mereka mengikuti robots.txt, jadi itu cara yang paling sederhana
  • Saya penasaran apakah crawler ini berjalan sebelum atau sesudah logika pemblokiran bot

  • Saya pernah berpikir akan bagus jika saya bisa menyediakan versi situs saya yang sudah dicrawl dengan baik
    Jika admin situs diberi fungsi seperti itu, crawler bisa mengaksesnya hanya dengan membayar biaya transfer
    Mungkin ini juga bisa diimplementasikan dengan menjalankan job crawl terhadap situs saya sendiri, lalu menyajikannya melalui subdomain static.

    • Tapi saya kurang paham untuk apa gunanya
      Jika situsnya statis, ya tinggal render dan host sebagai HTML biasa; kalau dinamis, saya ragu snapshot akan banyak artinya
      Menambahkan caching mungkin pendekatan yang lebih baik
  • Akhir-akhir ini rasanya Cloudflare mengambil semua fitur keren
    Jadi penasaran AWS sebenarnya sedang mengerjakan apa

  • Fitur ini benar-benar mengesankan
    Cloudflare bergerak lebih dulu ke arah masa depan