Sorotan Llama 3.1 405B di Cerebras Inference
- Menghasilkan 969 token output per detik - 12 kali lebih cepat dibanding hasil GPU terbaik
- Waktu ke token pertama 240ms - lebih singkat daripada sebagian besar API
- Mendukung panjang konteks 128K - performa tertinggi yang pernah tercatat
- Bobot 16-bit - mempertahankan akurasi model penuh
- Rilis umum dijadwalkan pada kuartal pertama 2025, $6 per sejuta token input, $12 per sejuta token output
AI frontier dengan kecepatan instan
- Cerebras tahun ini telah mendorong Llama 3.1 8B dan 70B melampaui 2.000 token per detik
- Model frontier seperti GPT-4o, Claude 3.5 Sonnet, dan Llama 3.1 405B belum pernah melampaui 200 token per detik di GPU, ASIC, maupun cloud
- Cerebras Inference menyelesaikan masalah ini sehingga Llama 3.1 405B dapat memberikan performa penuh pada konteks 128K
- Mencetak rekor dengan menghasilkan 969 token output per detik pada prompt 1.000 token
- Mencapai 539 token/detik pada prompt input 100.000 token, 11 kali lebih cepat daripada Fireworks dan 44 kali lebih cepat daripada AWS
Latensi terbaik
- Waktu ke token pertama adalah salah satu metrik terpenting dalam aplikasi nyata
- Dengan 240 milidetik, Cerebras memberikan waktu token pertama tercepat di antara semua platform yang menjalankan Llama 3.1-405B
- Waktu respons yang jauh lebih cepat dibanding solusi berbasis GPU secara signifikan meningkatkan pengalaman pengguna
Ketersediaan
- Cerebras Inference untuk Llama 3.1-405B saat ini sedang dalam uji coba pelanggan, dan dijadwalkan rilis umum pada kuartal pertama 2025
- Harga output 20% lebih murah dibanding AWS, Azure, dan GCP
Model terbuka adalah model tercepat
- Berkat pendekatan terbuka Meta dan teknologi inferensi inovatif dari Cerebras, Llama 3.1-405B berjalan lebih dari 10 kali lebih cepat dibanding model frontier tertutup
- Menyediakan fondasi yang cocok untuk aplikasi suara, video, dan penalaran
1 komentar
Opini Hacker News
Sulit untuk melampaui 100 tok/s saat menjalankan model Llama 3.1 70b di klaster 8x H100
Tidak yakin perbandingan latensinya adil
Untuk memberikan throughput tinggi dengan latensi yang baik, diperlukan overprovisioning yang berlebihan
Dengan model generasi saat ini serta RAG, multi-agent, dan code interpreter, latensi model menjadi bottleneck
Chip Cerebras menggunakan seluruh wafer dan hanya mencakup 44GB SRAM
Ada daftar tunggu untuk mencoba API
Saya rasa kemungkinan besar Nvidia akan mengakuisisi Cerebras
Mengesankan bahwa peningkatan performa masih dimungkinkan dengan perangkat keras baru
Ingin melihat perbandingan token/detik/watt
Tidak ada penyebutan tentang pesaingnya, Groq
Penasaran berapa biaya yang dibutuhkan untuk menyediakan layanan dengan latensi seperti ini