Platform AI Cloudflare: lapisan inferensi untuk agen

(blog.cloudflare.com)

2 poin oleh GN⁺ 5 hari lalu | 1 komentar | Bagikan ke WhatsApp

Membangun lapisan inferensi terpadu yang mengurangi kompleksitas aplikasi berbasis agen dengan mengintegrasikan beragam model dan penyedia
Melalui AI Gateway dan Workers AI, lebih dari 70 model dan lebih dari 12 penyedia dapat dipanggil lewat satu API, dengan biaya dan penggunaan dikelola secara terpusat
Mendukung eksekusi model berbasis container dengan memanfaatkan teknologi Cog dari Replicate agar model kustom dapat dideploy langsung
Memanfaatkan infrastruktur di 330 kota di seluruh dunia untuk meminimalkan latensi dan menjamin inferensi yang stabil lewat routing otomatis saat terjadi gangguan
Tim Replicate bergabung dengan Cloudflare untuk mengintegrasikan hosting dan deployment model sepenuhnya, serta memperluasnya menjadi platform tunggal untuk pengembangan agen

Gambaran umum Cloudflare AI Platform

Karena perubahan cepat pada model AI dan perbedaan antarpenyedia, kompleksitas aplikasi berbasis agen yang menggunakan kombinasi beberapa model semakin meningkat
- Misalnya, agen dukungan pelanggan dapat memakai model cepat untuk klasifikasi pesan, model besar untuk perencanaan, dan model ringan untuk eksekusi
- Diperlukan pengelolaan terpadu atas biaya, keandalan, dan latensi tanpa terikat pada satu penyedia saja
Cloudflare membangun lapisan inferensi terpadu berbasis AI Gateway dan Workers AI agar semua model dapat dipanggil melalui satu API
- Baru-baru ini ditambahkan pembaruan dashboard, konfigurasi gateway default otomatis, retry otomatis saat gangguan upstream, dan kontrol logging yang lebih granular

Satu katalog, satu endpoint terpadu

Melalui binding AI.run(), Cloudflare Workers dapat langsung memanggil model pihak ketiga seperti OpenAI dan Anthropic
- Saat berpindah dari model yang dihosting Cloudflare ke model pihak ketiga, cukup ubah satu baris kode
- Dukungan REST API juga akan segera hadir, sehingga seluruh katalog model dapat diakses dari lingkungan apa pun
Tersedia lebih dari 70 model dan lebih dari 12 penyedia melalui satu API dan satu satuan penagihan
- Penyedia utama: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
- Memungkinkan pembangunan aplikasi multimodal yang mencakup model gambar, video, dan suara
Semua pemanggilan model disatukan dalam satu API sehingga penggunaan dan biaya AI dapat dikelola secara terpusat
- Rata-rata, perusahaan menggunakan 3,5 model dari beberapa penyedia, tetapi AI Gateway memungkinkan pelacakan semuanya dari satu dashboard
- Saat melakukan request, metadata kustom dapat disertakan untuk analisis biaya per pelanggan atau per workflow

Deploy model sendiri (Bring Your Own Model)

AI Gateway menyatukan model dari semua penyedia, sekaligus menyiapkan kemampuan untuk mendeploy model yang di-fine-tune dengan data pengguna secara langsung
- Saat ini pelanggan enterprise menjalankan model kustom pada instance khusus, dan kemampuan ini direncanakan untuk diperluas ke pengguna umum
Cloudflare menggunakan teknologi Cog dari Replicate untuk mengontainerisasi model machine learning
- Dependensi didefinisikan dalam file cog.yaml, dan kode inferensi ditulis di file predict.py, lalu dipaketkan secara otomatis
- Cog mengabstraksikan konfigurasi kompleks seperti CUDA, versi Python, dan pemuatan bobot
Setelah image container dibangun dengan perintah cog build dan diunggah ke Workers AI, Cloudflare menangani deployment dan penyajiannya
- Ke depan akan tersedia perintah wrangler, cold start cepat berbasis snapshot GPU, dan API untuk pelanggan
- Saat ini sedang diuji bersama tim internal dan sebagian pelanggan eksternal, dengan rencana memperluas agar siapa pun dapat memakai model mereka sendiri di Workers AI

Optimasi kecepatan hingga token pertama

Kombinasi AI Gateway + Workers AI sangat menguntungkan untuk agen live yang membutuhkan respons real-time
- Bahkan jika total waktu inferensi adalah 3 detik, kedatangan token pertama 50 ms lebih cepat tetap meningkatkan persepsi kecepatan bagi pengguna
Cloudflare meminimalkan latensi jaringan antara pengguna dan endpoint inferensi lewat data center di 330 kota di seluruh dunia
Workers AI menghosting model open source yang dioptimalkan untuk agen, termasuk Kimi K2.5 dan model suara real-time
- Saat dipanggil melalui AI Gateway, kode dan inferensi berjalan di jaringan yang sama sehingga mencapai latensi serendah mungkin

Keandalan berbasis failover otomatis

Workflow agen memiliki ketergantungan tinggi antar langkah, sehingga stabilitas inferensi menjadi sangat penting
- Jika model yang sama tersedia di beberapa penyedia, AI Gateway akan otomatis merutekan ke penyedia lain saat salah satunya mengalami gangguan
- Developer tidak perlu menulis logika penanganan kegagalan secara terpisah
Untuk agen berumur panjang yang menggunakan Agents SDK, inferensi streaming dapat dipulihkan meski koneksi terputus
- AI Gateway melakukan buffering respons streaming secara independen, sehingga setelah reconnect respons yang sama dapat digunakan kembali
- Token yang sama dapat dipulihkan tanpa biaya ganda, dan bila digabung dengan fitur checkpoint dari SDK, pengguna tidak akan menyadari adanya gangguan

Integrasi Replicate

Tim Replicate bergabung dengan tim Cloudflare AI Platform untuk menjalankan integrasi penuh
- Semua model Replicate dipindahkan ke AI Gateway, dan model yang dihosting direplatform ke infrastruktur Cloudflare
- Pengguna dapat memanggil model Replicate yang ada melalui AI Gateway, atau menghosting model yang dideploy di Replicate melalui Workers AI

Memulai

Developer dapat mulai dari dokumentasi AI Gateway atau dokumentasi Workers AI
Agen dapat dibangun di atas Cloudflare melalui Agents SDK

Peran Cloudflare

Cloudflare adalah connectivity cloud yang membantu melindungi jaringan perusahaan, membangun aplikasi berskala besar, mempercepat performa web, serta mendukung perlindungan DDoS dan keamanan Zero Trust
Melalui aplikasi gratis 1.1.1.1, pengguna dapat menikmati internet yang lebih cepat dan lebih aman
Misi Cloudflare adalah membangun internet yang lebih baik, dan informasi terkait serta lowongan kerja tersedia di situs resminya

1 komentar

GN⁺ 5 hari lalu

Komentar Hacker News

Pada akhirnya ini terlihat seperti openrouter yang dipasangi Cloudflare Argo networking
Sepertinya akuisisi Replicate bisa dimanfaatkan untuk membuat sesuatu yang lebih menarik
application-specific RL makin membaik, tetapi masih kurang cara untuk mendeploy-nya secara scalable
Tempat seperti Fireworks juga bilang mereka bisa melakukan deployment LORA dalam skala besar, tetapi kenyataannya tidak berjalan baik
Jadi sekarang beban dasar aplikasi saya saya-host sendiri dengan beberapa 3090 di garasi. Konyol, tapi ini menghemat 1.000 dolar per bulan
- Penasaran model apa saja yang dijalankan, dan saat skalanya membesar akan butuh berapa banyak 3090
Ini terlihat cukup berguna. Cloudflare pandai mengumpulkan tool yang bagus
Khususnya D2, yang pada dasarnya satu-satunya sqlite-as-a-service, dengan reliabilitas yang bagus dan batas paket gratis yang cukup longgar
- Di dokumentasi dan marketing mereka menekankan use case seperti “DB per pengguna, DB per tenant”, tetapi dalam praktiknya sulit dipakai bersama Workers
  Untuk menambahkan binding DB baru, Worker harus dideploy ulang, jadi secara praktis hampir mustahil
- Dalam pengalaman kami, reliabilitas D1 tidak bagus
  Di lapisan jaringan internal, query bisa macet selama beberapa detik, kadang sampai puluhan detik
  Sebagian query bahkan tidak muncul di dashboard observability, jadi kalau tidak menambahkan deteksi timeout sendiri, masalahnya tidak akan ketahuan
  Juga tidak mendukung transaksi, dan di thread issue seorang PM mengatakan tidak ada rencana untuk mengimplementasikannya
  Untuk menjamin konsistensi data, harus memakai Durable Object, tetapi itu membawa biaya dan trade-off lain
  Idenya bagus, tetapi sulit dipercaya untuk production, cocok untuk proyek hobi
- Akan bagus kalau Cloudflare menyediakan sistem backup D1-R2 secara bawaan
  Sekarang ini hanya bisa dilakukan dengan kode kustom di Worker
- Batas 10GB di D1 terlalu kecil. Rasanya sulit dipakai untuk apa pun selain proyek level mainan
- Katanya REST API akan segera dirilis, tetapi strukturnya terasa mendorong Cloudflare lock-in
  Sulit dipahami kalau mereka bilang membuat OpenRouter tetapi hanya mendukung runtime binding mereka sendiri
Daftar model Workers AI dan
katalog model AI punya susunan model yang berbeda
Namespace “workers-ai/*” memiliki jauh lebih sedikit model. Penasaran apakah ini memang disengaja
- Misalnya model seperti “workers-ai/@cf/google/gemma-4-26b-a4b-it” atau
  “workers-ai/@cf/nvidia/nemotron-3-120b-a12b”
  tidak ada di endpoint /models milik gateway.ai.cloudflare.com. Namun model itu ada sebagai hosted model
Saya memakai openrouter dengan baik di Cloudflare Workers
Saat model sedang offline, fitur cascading dan waterfalling juga jauh lebih unggul
Sepertinya di V1 itu masih belum bisa
Saya suka hampir semua hal tentang openrouter, sampai bisa dibilang seperti fans
Masalah lapisan inferensi sedang cepat terselesaikan
Berikutnya yang sulit adalah lapisan governance, yaitu apa yang boleh dilakukan agen dan bagaimana membuktikannya
Penasaran apakah Cloudflare juga memikirkan bagian ini
- Akan bagus kalau ada sistem autentikasi otomatis berbasis zero-trust
  Saya membayangkan struktur di mana setiap agen menyerahkan kredensial RBAC untuk memperoleh hak akses
Senang melihat akuisisi Replicate akhirnya mulai membuahkan hasil
Di halaman model tidak terlihat informasi harga
Penasaran seberapa mahal dibanding membayar langsung ke penyedia
Apakah Cloudflare menawarkannya pada harga pokok?
Selain itu, zero data retention bukan default, dan pada beberapa penyedia bahkan tidak didukung sama sekali
Akan bagus kalau bisa mengembalikan completions ala OpenAI maupun Anthropic
- Saya engineer di Cloudflare. Kami akan segera menambahkan informasi harga ke dokumentasi dan dashboard
  Saat ini harganya sama dengan tarif penyedia, dengan sedikit biaya pemrosesan melalui unified billing credits
  Completions ala OpenAI/Anthropic juga akan segera didukung
  tautan penjelasan unified billing
- Informasi harga Workers AI ada di sini
Pada akhirnya ini terlihat seperti layanan mirip openrouter
- Betul. Hanya saja pilihan modelnya sempit, kecuali jika membawa model sendiri
- Ini seperti ditambah Argo networking di atasnya
Ini pengumuman yang cukup besar. Terlihat cukup kompetitif sebagai alternatif AWS Bedrock
Bahkan ada kemungkinan uptime-nya lebih tinggi daripada Anthropic atau AWS

Platform AI Cloudflare: lapisan inferensi untuk agen

Gambaran umum Cloudflare AI Platform

Satu katalog, satu endpoint terpadu

Deploy model sendiri (Bring Your Own Model)

Optimasi kecepatan hingga token pertama

Keandalan berbasis failover otomatis

Integrasi Replicate

Memulai

Peran Cloudflare

Bacaan terkait

1 komentar

Komentar Hacker News