1 poin oleh GN⁺ 2025-09-02 | 1 komentar | Bagikan ke WhatsApp
  • Cloudflare Radar menambahkan halaman khusus AI Insights, sehingga lalu lintas bot/crawler AI, popularitas layanan AI generatif berbasis DNS, arahan robots.txt, dan tren penggunaan model Workers AI dapat dipantau dalam satu layar
  • Grafik lalu lintas bot dan crawler AI menyediakan data deret waktu/ringkasan untuk UA teratas berdasarkan daftar ai.robots.txt, serta mendukung analisis terperinci melalui Radar API dan Data Explorer
  • Peringkat layanan AI generatif yang menggunakan data DNS 1.1.1.1 menampilkan perubahan tren dalam agregasi harian, dan memperlihatkan perubahan tajam pada layanan baru seperti lonjakan DeepSeek pada akhir Januari 2025 (muncul 26/1 → peringkat 3 pada 29/1)
  • Analisis robots.txt mengagregasikan arahan Allow/Disallow terkait AI dari 10.000 domain teratas untuk memvisualisasikan tren pemblokiran per kategori, dan menampilkan tren penolakan yang luas di area berita dan media
  • Popularitas model/tugas Workers AI menyediakan tren penggunaan per model dan per task serta perbandingan periode berdasarkan data bersama, sehingga membantu memahami arus ekosistem model yang berkembang cepat

Ikhtisar

  • Cloudflare menambahkan halaman AI Insights ke Radar untuk menyediakan secara terpadu tren lalu lintas, popularitas layanan, kontrol akses, dan penggunaan model terkait AI
  • Sumber datanya mencakup lalu lintas DNS 1.1.1.1, daftar user-agent ai.robots.txt, data bersama Workers AI, serta integrasi Radar API/Data Explorer

Tren lalu lintas bot dan crawler AI

  • Aktivitas 5 bot/crawler AI teratas divisualisasikan per periode untuk membantu memahami intensitas permintaan dan periodisitas
    • Dasar pengumpulan user-agent mengacu pada daftar ai.robots.txt dan terus diperbarui
    • Mendukung akses terprogram melalui endpoint API deret waktu/ringkasan
  • Di Data Explorer, pengguna dapat menelusuri tren luas untuk keseluruhan kumpulan bot AI
    • Operator dapat memeriksa lalu lintas anomali berdasarkan wilayah, periode, dan UA
    • Dapat dimanfaatkan untuk analisis korelasi dengan kebijakan respons internal

Popularitas layanan AI generatif

  • Berdasarkan volume permintaan DNS 1.1.1.1, peringkat relatif layanan AI generatif publik disediakan per hari
    • Dalam ulasan tahunan 2023/2024, ChatGPT terus menempati peringkat 1
    • Pada akhir Januari 2025, volatilitas di peringkat 6–10 teramati cukup tinggi
  • DeepSeek melonjak cepat ke peringkat 3 pada 29 Januari setelah pertama kali muncul pada 26 Januari
    • Menyediakan data peringkat berfrekuensi tinggi yang berguna untuk mendeteksi layanan baru yang tumbuh pesat
    • Di Radar API, data deret waktu mentah dapat diakses dengan parameter serviceCategory=Generative%20AI

Analisis file robots.txt

  • 10.000 domain teratas dikumpulkan secara berkala untuk mengagregasikan arahan Allow/Disallow terkait AI
    • Grafik merangkum izin/larangan penuh dan izin/larangan parsial per user-agent
    • Kategori berita dan media menunjukkan tren penolakan yang luas terhadap UA AI
  • Berdasarkan arahan Allow, jumlah situs yang memberi izin eksplisit menurun tajam
    • Jika UA tidak dicantumkan dan wildcard tidak ada, perlu diperhatikan bahwa perilaku default adalah mengizinkan penuh
    • Mendukung analisis filter per bot/per arahan melalui Radar API dan Data Explorer

Popularitas model dan tugas Workers AI

  • Tren penggunaan model dan tugas (Task) yang didukung secara publik di Workers AI divisualisasikan berdasarkan data bersama
    • Popularitas model/popularitas tugas masing-masing disediakan dalam bentuk deret waktu dan ringkasan
    • Di Data Explorer, analisis kenaikan/penurunan dibanding bulan sebelumnya dimungkinkan melalui fitur perbandingan periode (timeCompare)
  • Contoh model: mencakup beragam task seperti generasi teks, generasi gambar, pengenalan suara, klasifikasi gambar, dan lain-lain
    • Saat model baru yang kuat dirilis, visibilitas dini dapat dimanfaatkan untuk respons proaktif

Kesimpulan dan implikasi

  • Ekosistem AI menunjukkan volatilitas yang tajam, dengan banyak contoh layanan baru yang tumbuh pesat dalam waktu singkat
    • Seiring meluasnya layanan generatif, isu scraping konten, hak cipta, dan kontrol akses tetap berada dalam ketegangan yang berkelanjutan
  • Halaman AI Insights menyediakan secara terpadu lalu lintas, popularitas, kontrol akses, dan penggunaan model, sehingga berguna bagi pengamat industri dan praktisi untuk memahami tren terkini
    • Operator dapat membangun sistem pemantauan dan pelaporan otomatis melalui Radar API dan Data Explorer
    • Strategi arahan robots.txt dan kebijakan CDN/keamanan dapat dikaitkan untuk memperhalus respons terhadap bot AI

1 komentar

 
GN⁺ 2025-09-02
Komentar Hacker News
  • OpenAI mengonfirmasi status autentikasi sebagai "In Progress" melalui WebBotAuth, tampaknya Cloudflare sedang berusaha memosisikan diri sebagai penjaga gerbang untuk "bot baik", dan keberadaan status "In Progress" itu sendiri cukup bermakna; untuk perusahaan lain jawabannya hanya "No", tetapi untuk OpenAI artinya "belum sekarang, tetapi rencananya sudah diberitahukan ke CF"
    • Cloudflare tampaknya sedang mengejar monetisasi ganda: mereka sudah menarik biaya dari pengguna CDN, dan sekarang juga ingin dibayar lagi demi hak mengakses konten dari pengguna tersebut; memang ada rasa puas melihat OpenAI kena seperti ini, tetapi rasanya ini tidak akan berhenti di sini; saya jadi bertanya-tanya apakah Kagi atau mesin pencari lain bisa terus murah dan tetap berguna, dan bagaimana layanan seperti Internet Archive akan beroperasi dalam situasi ini
    • Saya tidak paham kenapa terasa begitu mengejutkan bahwa Cloudflare memblokir trafik yang tidak diinginkan ke situs web; memang itulah model bisnis mereka sejak awal
    • Sebenarnya, cara yang lebih masuk akal untuk mengautentikasi bot sudah sangat lama dibutuhkan; ini tidak terbatas hanya pada bot AI
    • Cloudflare kini praktis bergabung dengan jajaran penjaga gerbang internet; saat ini baru OpenAI yang tampaknya mencoba mendapatkan autentikasi semacam ini, dan Amazon juga kelihatannya ikut sampai tingkat tertentu; semoga perusahaan lain menolak tuntutan seperti ini
    • Eastdakota (CEO Cloudflare) berkata sesuatu seperti, "Akhir-akhir ini semua orang sibuk mati-matian agar bisa ikut dalam permainan era berikutnya, saya bisa mengosongkan satu kursi lagi," lalu Sam (mungkin dari pihak OpenAI) menjawab, "Saya tidak tahu kalau saya sudah tersingkir dari kursi saya," dan Eastdakota membalas dengan nuansa, "Belum sepenuhnya tersingkir, tapi situasinya sudah jadi sesuatu yang akan disesali"
  • Datanya benar-benar mengejutkan; di grafik "Generative AI services popularity", wajar kalau ChatGPT ada di posisi 1, tetapi mengejutkan bahwa Character.AI melampaui Anthropic, Perplexity, dan xAI untuk menempati posisi 2; saya rasa data ini bisa sangat dipengaruhi oleh strategi cache DNS masing-masing layanan; grafik menarik lainnya adalah "Workers AI model popularity"; llama-3-8b-instruct memimpin sejak April dengan pangsa 30~40%, dan LLM kecil yang sepopuler ini jarang ada; awalnya saya kira model m2m100-1.2b dari Meta atau Gemma 3 270M dari Alphabet akan lebih banyak dipakai; mungkin karena orang memakai model terkuat yang bisa dijalankan di CF worker; untuk analisis popularitas yang lebih beragam, lihat post blog saya "LLM Assistant Census"
    Lihat peringkat layanan Generative AI
    Lihat peringkat model Workers AI
    LLM Assistant Census
    • Saya penasaran kenapa cache DNS bisa mendistorsi hasil; saat Cloudflare mem-proxy situs, mereka bisa melihat seluruh request HTTP, jadi rasanya aneh kalau statistik ini dihitung hanya dari kueri DNS; komentar lain juga membahas DNS, jadi saya bertanya-tanya apakah ada sesuatu yang terlewat dalam cara pengumpulan statistiknya
    • Character.AI memang sangat populer di kalangan pengguna muda, jadi tidak terlalu mengejutkan kalau ia naik ke posisi 2
  • Baru-baru ini saya mencoba mencari tahu seberapa dalam tiap perusahaan merayapi web, dan hasilnya bot OpenAI paling teliti; ia mengikuti 405 tautan
    Lihat detail data crawling
    • Statistik yang menarik; di honeypot saya, GPTBot pernah mencapai kedalaman hingga 92 level; mungkin situs saya memang kurang menarik
  • Cloudflare sendiri yang menentukan bagaimana mendefinisikan AI Bot dalam penilaian bot; misalnya CCBot dari Common Crawl dipakai untuk berbagai tujuan (dikutip dalam lebih dari 10 ribu makalah riset), tetapi Cloudflare tetap menganggap CCBot hanya sebagai "AI Bot"; padahal kebanyakan operator situs web kemungkinan besar tidak tahu bot mana yang dianggap AI Bot, atau kenapa daftar itu dipilih seperti itu
  • Sedih melihat di "Top Browser & user agents" bahwa Firerox hanya punya pangsa 3.8%
    Statistik browser Cloudflare
    • Menurut saya, Firefox adalah satu-satunya dari 5 browser teratas yang tidak dipasang sebelumnya sebagai default; kebanyakan orang tidak cukup merasa terganggu untuk meninggalkan pilihan bawaan, jadi lebih dari 90% tidak pernah sampai mencari browser alternatif seperti Firefox
    • Pada masa awal dulu, Firefox memang browser yang lebih baik, dan berhasil meraih pangsa pasar berkat fitur nyata yang tidak disediakan browser lama; Firefox sekarang tidak lebih dari tiruan Chrome tanpa pembeda; pengguna biasa yang tidak tahu soal add-on tidak punya alasan memilih Firefox; kalau Firefox punya fitur yang benar-benar berguna (misalnya pemblokir iklan/gangguan bawaan, dll.), mungkin ia bisa merebut pasar lagi, tetapi tampaknya mereka tidak benar-benar berniat ke sana
    • Saya tidak mengerti bagaimana orang bisa dengan sukarela memakai browser buatan perusahaan iklan; mayoritas pengguna Chrome mungkin tidak tahu fakta ini, tetapi bahkan di antara orang yang membaca tulisan di sini pun pasti banyak yang tetap memakainya sambil tahu sifat asli Google dan Chrome
    • Saya penasaran seberapa besar pengaruh Firefox yang otomatis diklasifikasikan sebagai bot dalam statistik Cloudflare sehingga tidak masuk hitungan pangsa
    • Firefox tidak memberikan informasi user agent dengan baik (mungkin bahkan secara default), jadi angka pangsa ini bisa jadi tampak lebih rendah daripada kenyataannya
  • Data peringkat AI berbasis DNS request ini menarik; jika dilihat per 4 minggu, Character.AI konsisten di posisi 2 saat akhir pekan, Claude di posisi 3, lalu pada hari kerja keduanya saling bertukar posisi; tetapi grafik agregat menunjukkan pergantian peringkat di rentang Minggu~Senin, jadi kemungkinan ini berasal dari perbedaan zona waktu AS dan UTC
  • Data ini sangat bernilai bagi perusahaan AI maupun publisher; Cloudflare mendapat visibilitas yang belum pernah ada sebelumnya tentang siapa merayapi apa, kapan, dan seberapa banyak; saya rasa ini bisa segera dirilis sebagai produk premium berbayar (mulai dari layanan autentikasi bot sampai analisis crawling yang detail)
    • Ini akan menjadi tuas yang sangat besar bagi pertumbuhan Cloudflare; mereka kemungkinan berencana mengekstrak pendapatan semaksimal mungkin dari pemain besar seperti OpenAI
  • Jika pencarian dilakukan lewat API Anthropic lalu trafik pengguna diteruskan ke situs tujuan melalui tautan apa adanya, Cloudflare tidak akan bisa mencocokkan pencarian itu dengan pihak Anthropic, jadi rasio antara crawling dan trafik rujukan bisa berbeda dari kondisi sebenarnya
  • Kemungkinan statistik seperti ini tidak mencakup crawler jahat yang menyembunyikan identitas mereka memakai residential proxy dan sejenisnya
  • Saya sungguh berharap tidak ada yang tunduk pada autentikasi WebBotAuth dari Cloudflare dan upaya ini gagal total