- Membangun lapisan inferensi terpadu yang mengurangi kompleksitas aplikasi berbasis agen dengan mengintegrasikan beragam model dan penyedia
- Melalui AI Gateway dan Workers AI, lebih dari 70 model dan lebih dari 12 penyedia dapat dipanggil lewat satu API, dengan biaya dan penggunaan dikelola secara terpusat
- Mendukung eksekusi model berbasis container dengan memanfaatkan teknologi Cog dari Replicate agar model kustom dapat dideploy langsung
- Memanfaatkan infrastruktur di 330 kota di seluruh dunia untuk meminimalkan latensi dan menjamin inferensi yang stabil lewat routing otomatis saat terjadi gangguan
- Tim Replicate bergabung dengan Cloudflare untuk mengintegrasikan hosting dan deployment model sepenuhnya, serta memperluasnya menjadi platform tunggal untuk pengembangan agen
Gambaran umum Cloudflare AI Platform
- Karena perubahan cepat pada model AI dan perbedaan antarpenyedia, kompleksitas aplikasi berbasis agen yang menggunakan kombinasi beberapa model semakin meningkat
- Misalnya, agen dukungan pelanggan dapat memakai model cepat untuk klasifikasi pesan, model besar untuk perencanaan, dan model ringan untuk eksekusi
- Diperlukan pengelolaan terpadu atas biaya, keandalan, dan latensi tanpa terikat pada satu penyedia saja
- Cloudflare membangun lapisan inferensi terpadu berbasis AI Gateway dan Workers AI agar semua model dapat dipanggil melalui satu API
- Baru-baru ini ditambahkan pembaruan dashboard, konfigurasi gateway default otomatis, retry otomatis saat gangguan upstream, dan kontrol logging yang lebih granular
Satu katalog, satu endpoint terpadu
- Melalui binding AI.run(), Cloudflare Workers dapat langsung memanggil model pihak ketiga seperti OpenAI dan Anthropic
- Saat berpindah dari model yang dihosting Cloudflare ke model pihak ketiga, cukup ubah satu baris kode
- Dukungan REST API juga akan segera hadir, sehingga seluruh katalog model dapat diakses dari lingkungan apa pun
- Tersedia lebih dari 70 model dan lebih dari 12 penyedia melalui satu API dan satu satuan penagihan
- Penyedia utama: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
- Memungkinkan pembangunan aplikasi multimodal yang mencakup model gambar, video, dan suara
- Semua pemanggilan model disatukan dalam satu API sehingga penggunaan dan biaya AI dapat dikelola secara terpusat
- Rata-rata, perusahaan menggunakan 3,5 model dari beberapa penyedia, tetapi AI Gateway memungkinkan pelacakan semuanya dari satu dashboard
- Saat melakukan request, metadata kustom dapat disertakan untuk analisis biaya per pelanggan atau per workflow
Deploy model sendiri (Bring Your Own Model)
- AI Gateway menyatukan model dari semua penyedia, sekaligus menyiapkan kemampuan untuk mendeploy model yang di-fine-tune dengan data pengguna secara langsung
- Saat ini pelanggan enterprise menjalankan model kustom pada instance khusus, dan kemampuan ini direncanakan untuk diperluas ke pengguna umum
- Cloudflare menggunakan teknologi Cog dari Replicate untuk mengontainerisasi model machine learning
- Dependensi didefinisikan dalam file
cog.yaml, dan kode inferensi ditulis di file predict.py, lalu dipaketkan secara otomatis
- Cog mengabstraksikan konfigurasi kompleks seperti CUDA, versi Python, dan pemuatan bobot
- Setelah image container dibangun dengan perintah
cog build dan diunggah ke Workers AI, Cloudflare menangani deployment dan penyajiannya
- Ke depan akan tersedia perintah wrangler, cold start cepat berbasis snapshot GPU, dan API untuk pelanggan
- Saat ini sedang diuji bersama tim internal dan sebagian pelanggan eksternal, dengan rencana memperluas agar siapa pun dapat memakai model mereka sendiri di Workers AI
Optimasi kecepatan hingga token pertama
- Kombinasi AI Gateway + Workers AI sangat menguntungkan untuk agen live yang membutuhkan respons real-time
- Bahkan jika total waktu inferensi adalah 3 detik, kedatangan token pertama 50 ms lebih cepat tetap meningkatkan persepsi kecepatan bagi pengguna
- Cloudflare meminimalkan latensi jaringan antara pengguna dan endpoint inferensi lewat data center di 330 kota di seluruh dunia
- Workers AI menghosting model open source yang dioptimalkan untuk agen, termasuk Kimi K2.5 dan model suara real-time
- Saat dipanggil melalui AI Gateway, kode dan inferensi berjalan di jaringan yang sama sehingga mencapai latensi serendah mungkin
Keandalan berbasis failover otomatis
- Workflow agen memiliki ketergantungan tinggi antar langkah, sehingga stabilitas inferensi menjadi sangat penting
- Jika model yang sama tersedia di beberapa penyedia, AI Gateway akan otomatis merutekan ke penyedia lain saat salah satunya mengalami gangguan
- Developer tidak perlu menulis logika penanganan kegagalan secara terpisah
- Untuk agen berumur panjang yang menggunakan Agents SDK, inferensi streaming dapat dipulihkan meski koneksi terputus
- AI Gateway melakukan buffering respons streaming secara independen, sehingga setelah reconnect respons yang sama dapat digunakan kembali
- Token yang sama dapat dipulihkan tanpa biaya ganda, dan bila digabung dengan fitur checkpoint dari SDK, pengguna tidak akan menyadari adanya gangguan
Integrasi Replicate
- Tim Replicate bergabung dengan tim Cloudflare AI Platform untuk menjalankan integrasi penuh
- Semua model Replicate dipindahkan ke AI Gateway, dan model yang dihosting direplatform ke infrastruktur Cloudflare
- Pengguna dapat memanggil model Replicate yang ada melalui AI Gateway, atau menghosting model yang dideploy di Replicate melalui Workers AI
Memulai
Peran Cloudflare
- Cloudflare adalah connectivity cloud yang membantu melindungi jaringan perusahaan, membangun aplikasi berskala besar, mempercepat performa web, serta mendukung perlindungan DDoS dan keamanan Zero Trust
- Melalui aplikasi gratis 1.1.1.1, pengguna dapat menikmati internet yang lebih cepat dan lebih aman
- Misi Cloudflare adalah membangun internet yang lebih baik, dan informasi terkait serta lowongan kerja tersedia di situs resminya
1 komentar
Komentar Hacker News
Pada akhirnya ini terlihat seperti openrouter yang dipasangi Cloudflare Argo networking
Sepertinya akuisisi Replicate bisa dimanfaatkan untuk membuat sesuatu yang lebih menarik
application-specific RL makin membaik, tetapi masih kurang cara untuk mendeploy-nya secara scalable
Tempat seperti Fireworks juga bilang mereka bisa melakukan deployment LORA dalam skala besar, tetapi kenyataannya tidak berjalan baik
Jadi sekarang beban dasar aplikasi saya saya-host sendiri dengan beberapa 3090 di garasi. Konyol, tapi ini menghemat 1.000 dolar per bulan
Ini terlihat cukup berguna. Cloudflare pandai mengumpulkan tool yang bagus
Khususnya D2, yang pada dasarnya satu-satunya sqlite-as-a-service, dengan reliabilitas yang bagus dan batas paket gratis yang cukup longgar
Untuk menambahkan binding DB baru, Worker harus dideploy ulang, jadi secara praktis hampir mustahil
Di lapisan jaringan internal, query bisa macet selama beberapa detik, kadang sampai puluhan detik
Sebagian query bahkan tidak muncul di dashboard observability, jadi kalau tidak menambahkan deteksi timeout sendiri, masalahnya tidak akan ketahuan
Juga tidak mendukung transaksi, dan di thread issue seorang PM mengatakan tidak ada rencana untuk mengimplementasikannya
Untuk menjamin konsistensi data, harus memakai Durable Object, tetapi itu membawa biaya dan trade-off lain
Idenya bagus, tetapi sulit dipercaya untuk production, cocok untuk proyek hobi
Sekarang ini hanya bisa dilakukan dengan kode kustom di Worker
Sulit dipahami kalau mereka bilang membuat OpenRouter tetapi hanya mendukung runtime binding mereka sendiri
Daftar model Workers AI dan
katalog model AI punya susunan model yang berbeda
Namespace “workers-ai/*” memiliki jauh lebih sedikit model. Penasaran apakah ini memang disengaja
“workers-ai/@cf/nvidia/nemotron-3-120b-a12b”
tidak ada di endpoint /models milik gateway.ai.cloudflare.com. Namun model itu ada sebagai hosted model
Saya memakai openrouter dengan baik di Cloudflare Workers
Saat model sedang offline, fitur cascading dan waterfalling juga jauh lebih unggul
Sepertinya di V1 itu masih belum bisa
Saya suka hampir semua hal tentang openrouter, sampai bisa dibilang seperti fans
Masalah lapisan inferensi sedang cepat terselesaikan
Berikutnya yang sulit adalah lapisan governance, yaitu apa yang boleh dilakukan agen dan bagaimana membuktikannya
Penasaran apakah Cloudflare juga memikirkan bagian ini
Saya membayangkan struktur di mana setiap agen menyerahkan kredensial RBAC untuk memperoleh hak akses
Senang melihat akuisisi Replicate akhirnya mulai membuahkan hasil
Di halaman model tidak terlihat informasi harga
Penasaran seberapa mahal dibanding membayar langsung ke penyedia
Apakah Cloudflare menawarkannya pada harga pokok?
Selain itu, zero data retention bukan default, dan pada beberapa penyedia bahkan tidak didukung sama sekali
Akan bagus kalau bisa mengembalikan completions ala OpenAI maupun Anthropic
Saat ini harganya sama dengan tarif penyedia, dengan sedikit biaya pemrosesan melalui unified billing credits
Completions ala OpenAI/Anthropic juga akan segera didukung
tautan penjelasan unified billing
Pada akhirnya ini terlihat seperti layanan mirip openrouter
Ini pengumuman yang cukup besar. Terlihat cukup kompetitif sebagai alternatif AWS Bedrock
Bahkan ada kemungkinan uptime-nya lebih tinggi daripada Anthropic atau AWS