Cerebras capai 1.500 token per detik dengan peluncuran Qwen3-235B

(cerebras.ai)

1 poin oleh GN⁺ 2025-07-24 | 1 komentar | Bagikan ke WhatsApp

Cerebras meluncurkan model AI Qwen3-235B, menghadirkan performa inferensi instan dengan generasi 1.500 token per detik
Produktivitas dan pembuatan kode hingga 30x lebih cepat dengan biaya 1/10 dibanding model tertutup yang ada
Dukungan konteks 131K memungkinkan pemrosesan codebase skala besar dan dokumen kompleks
Bekerja sama dengan Cline untuk memperluas pengalaman pembuatan kode real-time di Microsoft VS Code
Dengan peluncuran ini, tercapai alternatif OpenAI dan Anthropic berbasis open source dengan performa tinggi dan biaya yang masuk akal

Qwen3-235B: Peluncuran model inferensi AI supercepat dari Cerebras dan pencapaian utamanya

Model inferensi AI tercepat di dunia diumumkan di Cerebras Inference Cloud

Pada 8 Juli 2025, Cerebras Systems resmi meluncurkan Qwen3-235B, model inferensi AI baru yang mendukung penuh konteks hingga 131K
Model ini menggabungkan kemampuan AI kelas frontier dan performa inferensi supercepat dengan biaya 1/10 dibanding alternatif tertutup, menawarkan perubahan besar untuk adopsi AI di perusahaan

Kecerdasan setara model frontier

Qwen3-235B dari Alibaba terbukti setara dengan model kompetitor terdepan seperti Claude 4 Sonnet, Gemini 2.5 Flash, dan DeepSeek R1 dalam benchmark sains, kode, dan pengetahuan umum, berdasarkan evaluasi independen Artificial Analysis
Dengan arsitektur Mixture-of-Experts yang memaksimalkan efisiensi komputasi, model ini ditawarkan seharga $0,60 per satu juta token input dan $1,20 per satu juta token output, sehingga sangat murah dibanding model tertutup yang ada

Kecepatan inferensi: inovasi dari menit menjadi detik

AI inferensi tradisional sering kali membutuhkan beberapa menit bahkan untuk kueri umum
Dengan memanfaatkan Wafer Scale Engine, Qwen3-235B mencapai output 1.500 token per detik, memangkas waktu respons kueri dari 1–2 menit menjadi 0,6 detik
Ini memungkinkan pembuatan kode, penalaran, dan workflow RAG skala besar merespons secara instan, sekaligus menetapkan standar baru untuk performa AI real-time
Berdasarkan pengukuran Artificial Analysis, model ini dinilai sebagai satu-satunya model AI frontier global yang menghasilkan lebih dari 1.000 token per detik

Konteks 131K: mendukung pembuatan kode di lingkungan nyata

Bersamaan dengan peluncuran Qwen3-235B, Cerebras memperluas dukungan konteks dari 32K menjadi 131K, naik 4x lipat
Hal ini memungkinkan inferensi atas codebase besar dan dokumen kompleks sekaligus, serta sangat meningkatkan kemungkinan pengembangan untuk lingkungan produksi melalui pembuatan kode serentak pada puluhan file dan puluhan ribu baris
Jika konteks 32K sebelumnya hanya memungkinkan pembuatan kode sederhana, konteks 131K kini langsung mendukung pengembangan aplikasi besar
Dengan demikian, Cerebras dapat merespons langsung pasar pembuatan kode untuk perusahaan, salah satu sektor terbesar dan paling cepat tumbuh dalam AI generatif

Pengalaman integrasi VS Code diperkuat lewat kemitraan strategis dengan Cline

Cerebras menjalin kemitraan dengan Cline, agen coding VS Code terbesar dengan lebih dari 1,8 juta instalasi
Semua pengguna Cline dapat langsung menggunakan Qwen3-32B (konteks 64K, gratis) di editor, dan dukungan untuk Qwen3-235B (konteks 131K) juga akan menyusul
Akan menghadirkan kecepatan pembuatan kode 10–20x lebih cepat dibanding pesaing seperti DeepSeek R1
CEO Cline, Saoud Rizwan, menekankan bahwa “berkat inferensi real-time, developer dapat menjelajahi kode dan masalah sambil mempertahankan alur kerja setara dengan kecepatan berpikir mereka”

Menyediakan alternatif AI frontier dengan kecepatan 30x dan biaya 1/10

Peluncuran Cerebras ini memberi opsi baru bagi developer yang menginginkan kecerdasan model berbasis open dan pembuatan kode pada level yang mirip dengan model komersial seperti OpenAI dan Anthropic
Secara khusus, Cerebras menjadi satu-satunya di dunia yang mewujudkan kecepatan inferensi instan di atas 1.500 token per detik, dengan produktivitas 10x dibanding pendekatan berbasis GPU
Biaya token juga kurang dari 1/10 dibanding kompetitor, menghadirkan AI supercepat dengan biaya yang masuk akal

Tentang Cerebras Systems

Cerebras Systems adalah tim ahli arsitektur komputer, deep learning, riset, dan engineering yang berfokus pada inovasi infrastruktur komputasi AI skala besar
Produk andalannya, sistem CS-3, dilengkapi prosesor AI komersial terbesar di dunia (Wafer-Scale Engine-3) dan memungkinkan pembangunan superkomputer AI besar melalui clustering yang mudah dan cepat
Cerebras Inference menghadirkan kecepatan inferensi inovatif, dan digunakan oleh lembaga riset, perusahaan, serta pemerintah untuk pengembangan model khusus berperforma tinggi dan pelatihan open source
Menyediakan solusi baik di lingkungan Cerebras Cloud maupun on-premises

1 komentar

GN⁺ 2025-07-24

Opini Hacker News

Berita ini mungkin "versi lama", tampaknya berasal dari tanggal 8 Juli dan sepertinya diperkenalkan karena tertukar dengan rilis Qwen 3 coder 405B yang diumumkan kemarin. Spesifikasi kedua model ini berbeda
- Awalnya saya kira ini adalah Qwen3-235B-A22B-Instruct-2507 yang diumumkan dua hari lalu (tautan). Model itu adalah model tanpa reasoning, dan karena pengumuman Cerebras menyebut reasoning, saya jadi sadar bahwa berita ini merujuk ke Qwen3-235B-A22B yang dirilis pada April. Nama modelnya membingungkan
Kalau ini benar-benar full fp16 quant, maka untuk memakai seluruh konteks 131k dibutuhkan memori 2TB. Karena satu chip Cerebras punya SRAM 44GB, berarti perlu menyambung 45 chip secara seri, dan kalau harganya $3M per unit totalnya menjadi $135M. Sebagai perbandingan, dua unit DGX B200 bisa menyediakan 2.8TB dan cukup dengan $1M. Jadi perbandingannya $1M vs $135M. Kecuali untuk pekerjaan bernilai tinggi yang butuh kecepatan inferensi luar biasa cepat seperti hedge fund atau pasar finansial, ini tidak efisien. Sulit membayangkan apa yang akan terjadi jika nanti model setingkat Claude Opus 4 (atau lebih tinggi) bisa dijalankan dengan puluhan juta token konteks dan 1500 token per detik dengan biaya sangat murah. Sepertinya masih perlu beberapa generasi kemajuan hardware lagi
- Perhitungan "44GB SRAM per chip Cerebras, butuh 45 unit tersusun seri, total $135M" itu keliru. 44GB tersebut adalah SRAM, yaitu memori on-chip, sedangkan sebagian besar parameter model disimpan di HBM. Misalnya GB200 hanya punya 126MB SRAM; kalau jumlah chip yang dibutuhkan untuk model 2TB dihitung hanya dari kapasitas cache, hasilnya pasti tidak masuk akal. Cerebras bisa memperluas HBM terpisah dari chip, dan dengan sistem seperti MemoryX bisa terhubung hingga hampir 2PB (artikel terkait). Saya bukan ahli, tapi dalam arsitektur Cerebras batas memorinya jauh lebih longgar
- SRAM di dalam chip sepenuhnya adalah memori kerja sementara dan tidak perlu menampung seluruh bobot model. Cerebras memakai pendekatan bobot sparse, sehingga hanya data yang diperlukan yang di-stream dari memori eksternal, dan core bekerja dengan mekanisme trigger transfer
- Sudut pandang "bisa dioperasikan/tidak bisa dioperasikan" terlalu sederhana. Dalam praktiknya, poin pentingnya adalah throughput untuk membagi seluruh sistem ke banyak pengguna. Mobil golf dan kereta sama-sama bisa pergi dari timur ke barat, tapi keekonomiannya berbeda. Skala minimum deployment memang penting, tetapi kalau menjual token lewat API cloud besar, dari sisi pelanggan itu tidak terlalu relevan
- Inferensi tidak harus dijalankan dengan fp16 tetap. Format kuantisasi modern sekarang bisa memberi presisi berbeda per layer sesuai kebutuhan, jadi dengan rata-rata 6 bit/parameter pun hampir tidak terasa perbedaannya. Bahkan jika ditekan keras, 8 bit/parameter sudah cukup. Ini penghematan memori yang sangat besar
- Chip kami bukan seharga $3M per unit. Saya tidak tahu angka itu berasal dari mana, tapi itu informasi yang sepenuhnya salah
Saya menyiapkan proxy litellm, menghubungkannya ke API Cerebras baru yang punya Qwen-235B, lalu memasang Aider untuk pengujian. Hasilnya memang tidak sebagus Claude code, tetapi kecepatannya luar biasa. Saya juga menjalankan Aider dengan prompt leaked claude code, tetapi tidak bekerja seperti yang saya harapkan. Sepertinya prompt Claude code memang dioptimalkan untuk Claude. Meski begitu, ini tetap layak dicoba dan terasa sangat menjanjikan. Aider memuntahkan teks dengan sangat cepat, memasang sesuatu, melakukan web call, lalu selesai. Benar-benar sekejap. Untuk mereplikasi environment saya, bisa pakai konfigurasi berikut:
```
model_list:
 - model_name: qwen3-235b
  litellm_params:
   model: cerebras/qwen-3-235b-a22b
   api_key: os.environ/CEREBRAS_API_KEY
   api_base: https://api.cerebras.ai/v1
```
Cara menjalankannya:
```
litellm --config config.yaml --port 4000 --debug
```
Lalu
```
aider --model cerebras/qwen-3-235b-a22b --openai-api-base http://localhost:4000 --openai-api-key fake-key --no-show-model-warnings --auto-commits --system-file ./prompt.txt --yes
```
Paket yang dibutuhkan bisa dipasang dengan pip atau semacamnya. Untuk prompt.txt, cari sendiri prompt leaked claude code lalu simpan
Saya sangat menantikan dukungan Qwen 3 coder di Cerebras. Saya sering menjalankan loop agen, dan kecepatan eksekusi memberikan efek kompresi waktu yang luar biasa. Kalau model sekelas Claude 4 Sonnet bisa berjalan di 1000~1500 token/detik, itu benar-benar revolusioner. Kalau ingin merasakan sensasi kecepatannya, bisa coba langsung lewat halaman Cerebras Inference atau API, atau melalui "Flash Answers" dari Mistral / Le Chat (berbasis Cerebras), dan sebagainya. Menjalankan iterasi kode di 1000tok/s terasa seperti sihir
- Persis ini. Dengan kecepatan seperti ini, efisiensi kerja saya meningkat drastis. Setiap kali menunggu agen, fokus dan konteks saya terputus. Menjalankannya paralel memang cepat, tapi mengorbankan konsentrasi. Kalau loop iterasi di IDE seperti Cursor bisa berjalan hampir seketika, rasanya akan jauh lebih ajaib. Dan pada kecepatan seperti ini, cara kerja itu sendiri akan berubah. IDE interaktif seperti Cursor akan terasa jauh lebih natural daripada Claude code berbasis command line
- Saya juga sama. Tapi API Cerebras harus jadi lebih kompatibel dengan openAI. Saya sudah mencoba model-model yang ada dengan berbagai code agent, termasuk Cline, tetapi semuanya gagal karena error 400 atau masalah format pemanggilan tool. Cukup mengecewakan
- Beberapa hari lalu saya mencoba menyiapkan Kimi K2 di Groq dan kaget dengan kecepatannya. Sekarang saya sedang mempertimbangkan apakah harus pindah ke Qwen 3 dan Cerebras. (Sedikit selingan, nama itu mengingatkan saya pada cerebrate dalam hierarki pangkat zerg di Starcraft, jadi membangkitkan kenangan masa kecil yang menarik)
- Kalau kecepatan agen LLM terus naik seperti ini, akhirnya bisa muncul situasi di mana waktu kompilasi menjadi bottleneck dalam proses pengembangan. Kalau begitu, akan muncul insentif ekonomi untuk meningkatkan performa compiler
Kecepatannya memang sangat mengesankan, tetapi dari pengalaman saya, mendapatkan rate limit atau kuota token tingkat produksi yang nyata dari Cerebras sangat sulit. Karena itu kami tidak bisa merancang sistem di atas mereka, jadi kami memakai vendor lain. Saya juga sudah banyak bicara dengan tim sales mereka, tapi katanya memang tidak bisa
Di antara yang sudah banyak memakai Claude Code dan sonnet-4, saya penasaran apakah ada yang sudah membandingkan Claude Code dengan Qwen3-Coder. Saya tergoda oleh kecepatan tinggi yang ditawarkan Cerebras, tetapi kalau kualitas modelnya lebih buruk, secepat apa pun saya tidak berniat pindah
- Saya belum mencoba Qwen, tapi pernah memakai layanan inferensi “token instan” dan model diffusion berbasis LLaMA untuk generator kode di Groq dan sejenisnya, dan hasilnya kurang memuaskan. Kalau model setingkat Gemini 2.5 pro atau Sonnet 4 bisa mengeluarkan puluhan ribu baris kode dalam hitungan detik di Cerebras, itu benar-benar akan mengubah peta persaingan
Katanya konteksnya "Full 131k", tetapi sebenarnya 262144, jadi dua kali lipat, dan kalau sampai kelipatan yarn 8x bisa mencapai 2 juta. Sebenarnya Cerebras juga punya batas teoretis panjang konteks, tetapi itu adalah batas struktur Transformer, sehingga kebutuhan memorinya meningkat hampir linear dan kebutuhan komputasinya meningkat empat kali lipat. Jadi tampaknya Cerebras juga tidak bisa memanfaatkan 100% untuk masalah panjang konteks. Selain itu saya juga penasaran apakah pelanggan memang tidak bisa tahu secara pasti metode kuantisasi yang digunakan
- Di halaman model tertulis native-nya 32768 dan performanya sudah divalidasi pada 4x YaRN (tautan). Ini tampaknya cukup cocok dengan angka 131k
Kecepatannya benar-benar mengesankan. Topiknya agak berbeda, tetapi saya penasaran bagaimana model seperti Qwen dan Kimi dalam hal sensor/bias negara asalnya
- Model Qwen dinilai punya kualitas yang sangat tinggi bahkan di antara model terbuka, terutama dengan arsitektur MoE. Namun pada saat yang sama, sensornya sangat keras. Mulai dari pertanyaan seperti "apa yang terjadi di Lapangan Tiananmen" sampai "protes besar" atau "mungkin terkait tank?" semuanya dielakkan secara samar, seperti hanya mengatakan bahwa alun-alun itu indah dan bersejarah
Cerebras adalah salah satu pencapaian teknis paling gila (dalam arti keren) yang keluar dari Silicon Valley dalam 10 tahun terakhir. Saat saya bertemu Andy 7~8 tahun lalu, dengan chip sebesar piring makan dan clamping 6 ton... saya pikir itu mustahil. Tapi mereka benar-benar membuatnya, dan sekarang terlihat betapa jauhnya pandangan mereka ke masa depan
- Konsepnya keren, tapi apakah benar ada orang yang memakai Cerebras alih-alih Nvidia?
- Sebenarnya ini dirancang untuk hpc dan flops, jadi pada inferensi llm pada akhirnya bandwidth memori yang lebih penting
- Ini adalah interpretasi modern dari ide lama. Saya pertama kali melihat makalah riset Eropa tentang wafer-scale, analog, dan jaringan saraf. Saya juga menemukan proyek lain. (makalah1, makalah2). Makalah kedua berasal dari tahun 1989, jadi semua patennya juga sudah kedaluwarsa
- wafer-scale integration juga sudah dicoba sejak beberapa dekade lalu
Saya sedang mencari environment pengembangan qwen lokal di Macbook. Saya mencoba kombinasi localforge + mlx_lm.server; di halaman tertulis proof-of-concept berhasil, tetapi dalam praktiknya muncul error “empty response”. Kalau ada yang punya pengalaman serupa, saya mohon sarannya
- Mungkin saya salah memahami pertanyaannya, tetapi dengan ollama saya memakai inferensi qwen lokal di Macbook Pro (32GB) dengan sangat baik

Cerebras capai 1.500 token per detik dengan peluncuran Qwen3-235B

Qwen3-235B: Peluncuran model inferensi AI supercepat dari Cerebras dan pencapaian utamanya

Model inferensi AI tercepat di dunia diumumkan di Cerebras Inference Cloud

Kecerdasan setara model frontier

Kecepatan inferensi: inovasi dari menit menjadi detik

Konteks 131K: mendukung pembuatan kode di lingkungan nyata

Pengalaman integrasi VS Code diperkuat lewat kemitraan strategis dengan Cline

Menyediakan alternatif AI frontier dengan kecepatan 30x dan biaya 1/10

Tentang Cerebras Systems

Bacaan terkait

1 komentar

Opini Hacker News