2 poin oleh GN⁺ 5 hari lalu | 1 komentar | Bagikan ke WhatsApp
  • Membangun lapisan inferensi terpadu yang mengurangi kompleksitas aplikasi berbasis agen dengan mengintegrasikan beragam model dan penyedia
  • Melalui AI Gateway dan Workers AI, lebih dari 70 model dan lebih dari 12 penyedia dapat dipanggil lewat satu API, dengan biaya dan penggunaan dikelola secara terpusat
  • Mendukung eksekusi model berbasis container dengan memanfaatkan teknologi Cog dari Replicate agar model kustom dapat dideploy langsung
  • Memanfaatkan infrastruktur di 330 kota di seluruh dunia untuk meminimalkan latensi dan menjamin inferensi yang stabil lewat routing otomatis saat terjadi gangguan
  • Tim Replicate bergabung dengan Cloudflare untuk mengintegrasikan hosting dan deployment model sepenuhnya, serta memperluasnya menjadi platform tunggal untuk pengembangan agen

Gambaran umum Cloudflare AI Platform

  • Karena perubahan cepat pada model AI dan perbedaan antarpenyedia, kompleksitas aplikasi berbasis agen yang menggunakan kombinasi beberapa model semakin meningkat
    • Misalnya, agen dukungan pelanggan dapat memakai model cepat untuk klasifikasi pesan, model besar untuk perencanaan, dan model ringan untuk eksekusi
    • Diperlukan pengelolaan terpadu atas biaya, keandalan, dan latensi tanpa terikat pada satu penyedia saja
  • Cloudflare membangun lapisan inferensi terpadu berbasis AI Gateway dan Workers AI agar semua model dapat dipanggil melalui satu API
    • Baru-baru ini ditambahkan pembaruan dashboard, konfigurasi gateway default otomatis, retry otomatis saat gangguan upstream, dan kontrol logging yang lebih granular

Satu katalog, satu endpoint terpadu

  • Melalui binding AI.run(), Cloudflare Workers dapat langsung memanggil model pihak ketiga seperti OpenAI dan Anthropic
    • Saat berpindah dari model yang dihosting Cloudflare ke model pihak ketiga, cukup ubah satu baris kode
    • Dukungan REST API juga akan segera hadir, sehingga seluruh katalog model dapat diakses dari lingkungan apa pun
  • Tersedia lebih dari 70 model dan lebih dari 12 penyedia melalui satu API dan satu satuan penagihan
    • Penyedia utama: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
    • Memungkinkan pembangunan aplikasi multimodal yang mencakup model gambar, video, dan suara
  • Semua pemanggilan model disatukan dalam satu API sehingga penggunaan dan biaya AI dapat dikelola secara terpusat
    • Rata-rata, perusahaan menggunakan 3,5 model dari beberapa penyedia, tetapi AI Gateway memungkinkan pelacakan semuanya dari satu dashboard
    • Saat melakukan request, metadata kustom dapat disertakan untuk analisis biaya per pelanggan atau per workflow

Deploy model sendiri (Bring Your Own Model)

  • AI Gateway menyatukan model dari semua penyedia, sekaligus menyiapkan kemampuan untuk mendeploy model yang di-fine-tune dengan data pengguna secara langsung
    • Saat ini pelanggan enterprise menjalankan model kustom pada instance khusus, dan kemampuan ini direncanakan untuk diperluas ke pengguna umum
  • Cloudflare menggunakan teknologi Cog dari Replicate untuk mengontainerisasi model machine learning
    • Dependensi didefinisikan dalam file cog.yaml, dan kode inferensi ditulis di file predict.py, lalu dipaketkan secara otomatis
    • Cog mengabstraksikan konfigurasi kompleks seperti CUDA, versi Python, dan pemuatan bobot
  • Setelah image container dibangun dengan perintah cog build dan diunggah ke Workers AI, Cloudflare menangani deployment dan penyajiannya
    • Ke depan akan tersedia perintah wrangler, cold start cepat berbasis snapshot GPU, dan API untuk pelanggan
    • Saat ini sedang diuji bersama tim internal dan sebagian pelanggan eksternal, dengan rencana memperluas agar siapa pun dapat memakai model mereka sendiri di Workers AI

Optimasi kecepatan hingga token pertama

  • Kombinasi AI Gateway + Workers AI sangat menguntungkan untuk agen live yang membutuhkan respons real-time
    • Bahkan jika total waktu inferensi adalah 3 detik, kedatangan token pertama 50 ms lebih cepat tetap meningkatkan persepsi kecepatan bagi pengguna
  • Cloudflare meminimalkan latensi jaringan antara pengguna dan endpoint inferensi lewat data center di 330 kota di seluruh dunia
  • Workers AI menghosting model open source yang dioptimalkan untuk agen, termasuk Kimi K2.5 dan model suara real-time
    • Saat dipanggil melalui AI Gateway, kode dan inferensi berjalan di jaringan yang sama sehingga mencapai latensi serendah mungkin

Keandalan berbasis failover otomatis

  • Workflow agen memiliki ketergantungan tinggi antar langkah, sehingga stabilitas inferensi menjadi sangat penting
    • Jika model yang sama tersedia di beberapa penyedia, AI Gateway akan otomatis merutekan ke penyedia lain saat salah satunya mengalami gangguan
    • Developer tidak perlu menulis logika penanganan kegagalan secara terpisah
  • Untuk agen berumur panjang yang menggunakan Agents SDK, inferensi streaming dapat dipulihkan meski koneksi terputus
    • AI Gateway melakukan buffering respons streaming secara independen, sehingga setelah reconnect respons yang sama dapat digunakan kembali
    • Token yang sama dapat dipulihkan tanpa biaya ganda, dan bila digabung dengan fitur checkpoint dari SDK, pengguna tidak akan menyadari adanya gangguan

Integrasi Replicate

  • Tim Replicate bergabung dengan tim Cloudflare AI Platform untuk menjalankan integrasi penuh
    • Semua model Replicate dipindahkan ke AI Gateway, dan model yang dihosting direplatform ke infrastruktur Cloudflare
    • Pengguna dapat memanggil model Replicate yang ada melalui AI Gateway, atau menghosting model yang dideploy di Replicate melalui Workers AI

Memulai

Peran Cloudflare

  • Cloudflare adalah connectivity cloud yang membantu melindungi jaringan perusahaan, membangun aplikasi berskala besar, mempercepat performa web, serta mendukung perlindungan DDoS dan keamanan Zero Trust
  • Melalui aplikasi gratis 1.1.1.1, pengguna dapat menikmati internet yang lebih cepat dan lebih aman
  • Misi Cloudflare adalah membangun internet yang lebih baik, dan informasi terkait serta lowongan kerja tersedia di situs resminya

1 komentar

 
GN⁺ 5 hari lalu
Komentar Hacker News
  • Pada akhirnya ini terlihat seperti openrouter yang dipasangi Cloudflare Argo networking
    Sepertinya akuisisi Replicate bisa dimanfaatkan untuk membuat sesuatu yang lebih menarik
    application-specific RL makin membaik, tetapi masih kurang cara untuk mendeploy-nya secara scalable
    Tempat seperti Fireworks juga bilang mereka bisa melakukan deployment LORA dalam skala besar, tetapi kenyataannya tidak berjalan baik
    Jadi sekarang beban dasar aplikasi saya saya-host sendiri dengan beberapa 3090 di garasi. Konyol, tapi ini menghemat 1.000 dolar per bulan

    • Penasaran model apa saja yang dijalankan, dan saat skalanya membesar akan butuh berapa banyak 3090
  • Ini terlihat cukup berguna. Cloudflare pandai mengumpulkan tool yang bagus
    Khususnya D2, yang pada dasarnya satu-satunya sqlite-as-a-service, dengan reliabilitas yang bagus dan batas paket gratis yang cukup longgar

    • Di dokumentasi dan marketing mereka menekankan use case seperti “DB per pengguna, DB per tenant”, tetapi dalam praktiknya sulit dipakai bersama Workers
      Untuk menambahkan binding DB baru, Worker harus dideploy ulang, jadi secara praktis hampir mustahil
    • Dalam pengalaman kami, reliabilitas D1 tidak bagus
      Di lapisan jaringan internal, query bisa macet selama beberapa detik, kadang sampai puluhan detik
      Sebagian query bahkan tidak muncul di dashboard observability, jadi kalau tidak menambahkan deteksi timeout sendiri, masalahnya tidak akan ketahuan
      Juga tidak mendukung transaksi, dan di thread issue seorang PM mengatakan tidak ada rencana untuk mengimplementasikannya
      Untuk menjamin konsistensi data, harus memakai Durable Object, tetapi itu membawa biaya dan trade-off lain
      Idenya bagus, tetapi sulit dipercaya untuk production, cocok untuk proyek hobi
    • Akan bagus kalau Cloudflare menyediakan sistem backup D1-R2 secara bawaan
      Sekarang ini hanya bisa dilakukan dengan kode kustom di Worker
    • Batas 10GB di D1 terlalu kecil. Rasanya sulit dipakai untuk apa pun selain proyek level mainan
    • Katanya REST API akan segera dirilis, tetapi strukturnya terasa mendorong Cloudflare lock-in
      Sulit dipahami kalau mereka bilang membuat OpenRouter tetapi hanya mendukung runtime binding mereka sendiri
  • Daftar model Workers AI dan
    katalog model AI punya susunan model yang berbeda
    Namespace “workers-ai/*” memiliki jauh lebih sedikit model. Penasaran apakah ini memang disengaja

    • Misalnya model seperti “workers-ai/@cf/google/gemma-4-26b-a4b-it” atau
      “workers-ai/@cf/nvidia/nemotron-3-120b-a12b”
      tidak ada di endpoint /models milik gateway.ai.cloudflare.com. Namun model itu ada sebagai hosted model
  • Saya memakai openrouter dengan baik di Cloudflare Workers
    Saat model sedang offline, fitur cascading dan waterfalling juga jauh lebih unggul
    Sepertinya di V1 itu masih belum bisa
    Saya suka hampir semua hal tentang openrouter, sampai bisa dibilang seperti fans

  • Masalah lapisan inferensi sedang cepat terselesaikan
    Berikutnya yang sulit adalah lapisan governance, yaitu apa yang boleh dilakukan agen dan bagaimana membuktikannya
    Penasaran apakah Cloudflare juga memikirkan bagian ini

    • Akan bagus kalau ada sistem autentikasi otomatis berbasis zero-trust
      Saya membayangkan struktur di mana setiap agen menyerahkan kredensial RBAC untuk memperoleh hak akses
  • Senang melihat akuisisi Replicate akhirnya mulai membuahkan hasil

  • Di halaman model tidak terlihat informasi harga
    Penasaran seberapa mahal dibanding membayar langsung ke penyedia
    Apakah Cloudflare menawarkannya pada harga pokok?
    Selain itu, zero data retention bukan default, dan pada beberapa penyedia bahkan tidak didukung sama sekali
    Akan bagus kalau bisa mengembalikan completions ala OpenAI maupun Anthropic

    • Saya engineer di Cloudflare. Kami akan segera menambahkan informasi harga ke dokumentasi dan dashboard
      Saat ini harganya sama dengan tarif penyedia, dengan sedikit biaya pemrosesan melalui unified billing credits
      Completions ala OpenAI/Anthropic juga akan segera didukung
      tautan penjelasan unified billing
    • Informasi harga Workers AI ada di sini
  • Pada akhirnya ini terlihat seperti layanan mirip openrouter

    • Betul. Hanya saja pilihan modelnya sempit, kecuali jika membawa model sendiri
    • Ini seperti ditambah Argo networking di atasnya
  • Ini pengumuman yang cukup besar. Terlihat cukup kompetitif sebagai alternatif AWS Bedrock
    Bahkan ada kemungkinan uptime-nya lebih tinggi daripada Anthropic atau AWS