3 poin oleh GN⁺ 2025-07-03 | 2 komentar | Bagikan ke WhatsApp
  • Cloudflare memperkenalkan pengaturan baru yang secara default memblokir scraper data A.I.
  • Pemilik situs web akan secara otomatis memblokir crawling oleh bot AI kecuali mereka memberikan izin
  • Langkah ini memperkuat peran perlindungan konten internet terkait pengumpulan data berkualitas tinggi yang dibutuhkan untuk pelatihan model AI
  • Pembuat konten dan media terus menyuarakan kekhawatiran atas penggunaan data tanpa izin
  • Sengketa hukum antara perusahaan AI dan pemilik konten makin sering terjadi

Cloudflare memperkenalkan fitur pemblokiran default untuk scraper data AI

  • Cloudflare adalah perusahaan teknologi yang menyediakan layanan manajemen trafik online dan keamanan
  • Seiring meningkatnya praktik perusahaan AI yang mengumpulkan data situs web tanpa izin, Cloudflare memperkenalkan pengaturan baru berbasis izin yang memungkinkan pelanggan secara otomatis memblokir akses scraper data AI

Kebijakan default baru dan perubahannya

  • Melalui fitur yang baru diperkenalkan ini, situs web dapat secara default memblokir crawling otomatis (scraping) oleh bot AI
  • Jika crawling data diperlukan, pemilik situs web harus secara terpisah memberikan izin akses secara manual
  • Sebelumnya, bot yang tidak dianggap Cloudflare sebagai peretas atau pelaku berbahaya dapat dengan bebas mengumpulkan informasi situs web

Alasan perubahan kebijakan Cloudflare

  • CEO Cloudflare Matthew Prince menekankan bahwa langkah ini dimaksudkan untuk "melindungi konten asli di internet dan memperkuat hak penerbit web"
  • Jika perusahaan AI memanfaatkan data internet tanpa izin, akan muncul masalah berupa berkurangnya insentif bagi pembuat konten untuk menghasilkan konten baru
  • Jaringan Cloudflare menangani sekitar 20% dari trafik internet global
  • Aktivitas crawler AI di web belakangan ini meningkat tajam, sehingga kebijakan ini didorong sebagai respons

Data AI dan konflik industri yang makin tajam

  • Persaingan pengumpulan data skala besar untuk pengembangan model AI oleh OpenAI, Anthropic, Google, dan lainnya semakin ketat
  • Data web berkualitas tinggi memainkan peran penting dalam kecanggihan model AI dan kualitas hasilnya
  • Akibatnya, operator situs web, perusahaan media, dan pemegang hak cipta memprotes pengumpulan data tanpa izin dan tanpa kompensasi

Contoh meluasnya sengketa hukum

  • Pada Juni 2025 Reddit menggugat Anthropic, dan pada 2023 The New York Times menggugat OpenAI dan Microsoft, masing-masing dengan alasan penggunaan tanpa izin atas data pelatihan AI dan pelanggaran hak cipta
  • OpenAI dan Microsoft membantah tuduhan pelanggaran hak cipta tersebut

Kesimpulan

  • Kebijakan baru Cloudflare berupa pemblokiran default atas pengumpulan data AI memberikan dampak besar pada standar etika dan hukum akses serta pemanfaatan data antara industri AI dan pemilik konten
  • Perubahan kebijakan ini menjadi momentum penting dalam membentuk standar perlindungan hak konten dan persetujuan awal di dalam ekosistem AI.

2 komentar

 
GN⁺ 2025-07-03
Opini Hacker News
  • Salah satu hal yang kurang disadari orang adalah bahwa hampir semua yang kita lakukan secara online selama ini pada dasarnya hanya menyediakan data pelatihan gratis bagi perusahaan seperti OpenAI dan Anthropic, sementara manusia yang benar-benar menciptakan nilai justru tersisih. Saya merasa arah penekanannya 100% benar, tetapi sulit menyebut solusi ini inovatif, dan saya berharap ada jauh lebih banyak inovasi untuk melawan fenomena parasit AI.
    • Ada pendapat bahwa Cloudflare dan perusahaan serupa justru merusak kebebasan internet. Dengan dalih autentikasi, situs terlalu sering melambat atau diblokir, sehingga pengalaman memuat halaman terasa lambat seperti tahun 1998. Kita sedang masuk ke era di mana hanya browser yang mengizinkan perusahaan iklan melacak dan memonetisasi pengguna yang bisa dipakai secara normal, dan Cloudflare dikritik bukan karena menyelesaikan masalah, melainkan karena menyisip di tengah untuk mengambil uang sambil menurunkan kualitas pengalaman internet secara keseluruhan.
    • Saya menulis di internet karena ingin membagikan pikiran saya, dan saya puas terlepas dari apakah itu dipakai sebagai data pelatihan AI atau dibaca manusia.
    • Saya berpikir penggunaan bebas data internet yang terbuka untuk pelatihan AI itu 100% tidak masalah. Namun, saya sama sekali tidak bisa menerima crawling yang terlalu cepat sampai membebani situs kecil sehingga sulit dioperasikan; saya menganggap fenomena ini sebagai tragedi barang publik yang sesungguhnya.
    • Saya ragu apakah Cloudflare benar-benar bisa memblokir semua scraping data AI secara sempurna. Langkah seperti ini dalam praktiknya mungkin hanya akan membuat crawling menjadi lebih sulit dan mahal, sehingga mencegah bot mengikis semua halaman setiap hari dan membebani biaya penerbit, tetapi pada akhirnya datanya tetap akan masuk ke suatu dataset di suatu tempat.
  • Saya sudah mencoba menyalakan fitur itu, dan yang saya lihat hanya robots.txt berubah otomatis. Saya tidak yakin ada perilaku tambahan lain. Pengaturan untuk memblokir berbagai bot dan crawler AI ditambahkan ke file robots.txt.
    • Saat melihat bagian "User-agent: CCBot disallow: /", muncul pertanyaan apakah CCBot(Common Crawl) memang khusus untuk AI. CCBot sebenarnya sudah lama diblokir di banyak robots.txt. Saya penasaran apakah Common Crawl benar-benar bisa mengendalikan cara konten digunakan, dan jika CC bergantung pada fair use, apakah mereka benar-benar punya hak untuk menagih biaya lisensi atau memberi izin penggunaan turunan. Saya juga ragu apakah syarat layanan situs web sering kali benar-benar mengizinkan operator situs untuk melisensikan ulang konten milik orang lain (pengguna) untuk keperluan LLM dan membagikan pendapatannya.
    • Cloudflare mengatakan mereka mengubah setelan default untuk melindungi konten orisinal, tetapi anehnya panduan robots.txt mereka justru secara khusus masih mengizinkan penggunaan untuk 'AI RAG(Retrieval Augmented Generation)', padahal dibanding pelatihan model bahasa, RAG justru lebih langsung merusak pendapatan penulis secara real-time.
    • Ada pemikiran bahwa Google pada akhirnya juga mengambil data sekaligus untuk pengindeksan web dan pelatihan AI, dan akhirnya bisa memaksa pilihan. Jika operator situs harus mengorbankan visibilitas di Google Search bila tidak mau ikut mendukung pelatihan AI, itu akan menjadi dilema yang sangat rumit.
    • Di situs hobi pribadi saya, jika user-agent mengandung bot dan meminta file selain robots.txt, humans.txt, atau favicon.ico, saya merespons dengan status 444 (menutup koneksi seketika). Sebagian besar mesin pencari saya perlakukan sebagai blackhole pada blok CIDR. Mungkin saya satu-satunya yang melakukannya seperti ini.
    • Ada surat kabar yang memblokir bukan hanya crawler LLM tetapi juga fitur pencarian ChatGPT sekaligus, jadi pengaturan Cloudflare masih merupakan default yang jauh lebih masuk akal dibanding itu.
  • Judul kali ini agak bisa menyesatkan. Saat ini situs yang memakai Cloudflare bisa dengan cepat menyalakan pemblokiran semua bot AI secara opt-in, tetapi itu bukan default dan tidak diterapkan otomatis. Fakta bahwa Cloudflare bisa melakukan langkah menyeluruh seperti ini jika mereka mau menunjukkan betapa besarnya kekuasaan mereka.
    • Muncul pertanyaan apakah ini benar-benar bukan default. Dalam posting blog resmi Cloudflare memang disebut ada perubahan setelan default.
    • Sekarang hubungan antara bot AI dan situs web sudah menjadi relasi yang bermusuhan. Cloudflare hanya merespons situasi itu. Bukankah pertahanan DDoS juga berada dalam konteks yang mirip?
    • Cloudflare tampaknya lebih banyak memperlambat internet daripada menyediakan sarana pertahanan yang layak. Saya belum pernah gagal menembus challenge yang mereka berikan dalam waktu setengah hari. Saya melihat langkah ini sebagai tahap awal untuk masuk ke pasar perantara bagi AI SEO. Pada dasarnya Cloudflare saya tafsirkan bukan berupaya demi situs, melainkan mencoba mengambil komisi di tengah antara scraper dan publisher. Saya benci Cloudflare.
  • Penggunaan data saya yang dilayani melalui Cloudflare melonjak dari 20gb dua tahun lalu menjadi 100gb. Pengunjung nyata malah turun menjadi kurang dari setengahnya, jadi melihat trafik yang hanya membesar seperti ini, saya menduga Cloudflare melakukan langkah ini untuk mengurangi biaya sumber daya di pihak mereka.
    • Saya setuju bahwa pada trafik berskala besar, biaya bandwidth memang mahal.
  • Di HN, sering ada keluhan bahwa trafik bot membuat situs melambat, tetapi sebagai operator situs saya agak sulit memahaminya. Kalau memakai cache Cloudflare secara default, bukankah sebagian besar trafik akan ditangani cache dan hampir tidak membebani server? Biaya CPU dan bandwidth juga sekarang tidak terlalu mahal, bukan? Saya penasaran kenapa semua orang begitu sensitif soal ini.
    • Saya juga mengelola situs besar dengan ratusan ribu halaman dalam 10 bahasa, totalnya jutaan halaman, dan RPS mendekati 1000. Jika crawler AI mengirim 100~200 RPS sekaligus lewat banyak IP, lalu memukul endpoint mahal secara terfokus, langkah pemblokiran bot yang ada pun tidak cukup, dan efeknya jadi mirip DDoS.
    • Saya juga pernah tumbang karena trafik AI. Meski memakai cache berlapis, beberapa endpoint API publik yang terekspos tanpa autentikasi memang tidak bisa di-cache, dan jika bagian ini terus dipukul berulang, situs akhirnya akan jatuh. Jika jutaan halaman diregenerasi serentak dalam waktu singkat karena cache miss, request akan menumpuk dan error muncul; error itu lalu membuat cache tetap tidak lengkap dan menciptakan lingkaran setan. Jika trafik AI terus memukul endpoint seperti ini, masalahnya akan berlanjut.
    • Masalahnya dimulai dari asumsi bahwa semua orang secara default memakai Cloudflare. Apakah kita sudah hidup di zaman di mana ini menjadi komponen wajib bahkan untuk menjalankan situs sederhana?
    • Masalah trafik AI yang paling sering disorot orang tampaknya banyak berpusat pada crawler yang tanpa henti memukul API seperti 'mengambil semua post berdasarkan date range'.
    • Saya juga agak heran dengan reaksi sekeras ini, tetapi saya bisa memahami keinginan untuk kabur dari crawler AI di situs yang belum dioptimalkan. Dari alat-alat terkait, yang tampaknya paling cepat menyebar adalah Anubis checker tautan github. Mengingat trafik AI berupa crawler terdistribusi, saya merasa perangkat lunak open source yang membatasi secara kolaboratif perlu lebih berkembang. Web juga butuh lebih banyak respons seperti HTTP status code "420 Enhance Your Calm" tautan referensi.
  • Ada kekhawatiran bahwa jika perusahaan AI memakai data dari berbagai situs web tanpa izin, motivasi untuk memproduksi konten digital akan hilang, dan pada akhirnya struktur pertumbuhan AI itu sendiri akan merusak aktivitas digital lain lalu menghancurkan web. Menariknya, bagi AI web itu sendiri adalah 'mangsa'.
    • Ada pendapat bahwa logika tentang terhambatnya konten digital lebih kompleks, mengingat tingkat penggunaan ad blocker secara global mencapai 30%.
    • Jika hal-hal yang pada akhirnya ingin dilakukan AI—berbagai interaksi dengan manusia dan aktivitas ekonomi—tidak terwujud, AI juga pada akhirnya akan kehabisan sumber data.
    • Ada pandangan bahwa sebagaimana kapitalisme kini menjadikan manusia sebagai objek eksploitasi utama, AI juga secara struktural menempuh jalan yang serupa.
  • Cloudflare dapat menangkap bot atau crawler AI yang mematuhi robots.txt dan berperilaku jujur melalui aturan yang sudah diprakonfigurasi, tetapi karena beberapa perusahaan seperti Perplexity sudah menyamarkan trafiknya, muncul pertanyaan apakah pemblokiran ini justru hanya merugikan bot yang jujur dan mendorong penyamaran. Fenomena ini, yakni perlombaan senjata, sudah berlangsung selama 20 tahun dan bukan hal baru. Berkat sinyal global, bot scoring, dan fingerprinting trafik milik Cloudflare, bot AI yang menyamar juga bisa diidentifikasi dengan cukup baik. Tautan penjelasan terkait juga dibagikan referensi blog.cloudflare.com
    • Menanggapi pertanyaan apakah mengatur hanya bot yang jujur dan transparan justru akan memperbanyak crawling terselubung yang menyamar, ada pandangan bahwa pertarungan seperti ini sudah terjadi lebih dari 20 tahun dan ini bukan sesuatu yang benar-benar baru, juga bukan jawaban final.
    • Opsi Block AI Bots pada Super Bot Fight Mode benar-benar membantu menghilangkan sebagian besar trafik bot, dan pendekatannya bukan bergantung pada robots.txt atau user agent, melainkan menganalisis pola trafik. Akibatnya, alat saya bahkan perlu aturan bypass tersendiri agar bisa berfungsi.
    • Cloudflare sangat tahu cara membuat penggunaan internet menjadi sangat sulit bagi pengguna yang tidak mereka sukai. Dengan robots.txt, ada ruang untuk mengizinkan bot agar tidak diklasifikasikan sebagai jahat di level situs, tetapi selebihnya akan diproses dengan cara khas Cloudflare.
    • Bagi Cloudflare, bot AI yang melakukan scraping massal pada dasarnya sulit disembunyikan; mereka bisa dibedakan lewat berbagai sinyal pada tingkat fingerprinting dan jaringan. Perusahaan besar juga kemungkinan berkomunikasi langsung dengan Cloudflare, jadi tampaknya tetap ada berbagai sarana seperti peringatan atau respons lainnya.
  • Apakah perusahaan AI besar benar-benar menghormati robots.txt? Mungkin hanya sebagian crawler publik yang mematuhinya, sementara di bawah permukaan mereka tetap menjalankan crawling dengan cara tersembunyi. Mereka memang punya riwayat mengambil dan memakai buku, gambar, hingga data pengguna secara ilegal.
    • Crawler kecil juga sering menyamar sebagai perusahaan besar untuk menghindari pemblokiran, sehingga sulit dibedakan.
    • Mematuhi robots.txt pada dasarnya hanyalah konvensi, tanpa paksaan hukum atau teknis yang jelas. Memang syarat layanan bisa mencantumkan klausul kepatuhan terhadap kebijakan robots.txt, tetapi efektivitas nyatanya diragukan.
    • Sebagian besar trafik ini bisa jadi bukan scraping langsung oleh AI, melainkan bentuk di mana manusia bertanya kepada AI lalu saat itu juga AI pergi menelusuri internet. Ada kebingungan apakah ini harus dipandang dalam cakupan regulasi robots.txt seperti browser untuk keperluan riset, atau hanya untuk tujuan pengindeksan.
    • Saya tidak terlalu suka peran Cloudflare sebagai penjaga gerbang, tetapi mereka memang berada pada posisi yang bisa memberi pengaruh nyata kepada perusahaan AI.
  • Saat ini daftar bot AI yang menjadi target pemblokiran masih sangat pendek tautan referensi
    • Dalam penjelasan Cloudflare, Common Crawl(CCBot) juga dikategorikan sebagai AI Bots dan masuk dalam opsi pemblokiran. Namun Common Crawl sebenarnya bukan bot khusus AI, melainkan infrastruktur crawling terbuka tautan referensi
    • Cloudflare mengamati trafik web dalam skala besar, jadi daftar bot yang ditangkap saat ini kemungkinan berfokus pada yang paling sering muncul, dan bot baru tampaknya akan terus ditambahkan bila ditemukan. Memang mustahil memblokir semua crawler, tetapi jika melihat internet secara keseluruhan, jarang ada tempat yang bisa mendeteksi bot sebanyak Cloudflare.
    • Bahkan pemblokiran seperti ini saja kemungkinan bisa mengurangi trafik mayoritas situs hingga di bawah setengahnya.
  • Evolusi besar web—pagar tertutup Web2, kehampaan Web3, dan sekarang—makin menjauhi perannya sebagai komunitas dan penyimpanan pengetahuan. Kualitas dan teknologinya terus berkembang, tetapi sebanyak itu pula hal yang telah hilang.