Cerebras Inference memproses 969 token per detik pada Llama 3.1 405B

(cerebras.ai)

3 poin oleh GN⁺ 2024-11-20 | 1 komentar | Bagikan ke WhatsApp

Model frontier berukuran besar biasanya terhambat oleh kecepatan dan latensi, tetapi Cerebras Inference mencatat 969 token output per detik pada workload pelanggan Llama 3.1 405B
Dengan prompt 1.000 token, hasilnya 8 kali lebih cepat daripada SambaNova, 12 kali lebih cepat daripada cloud GPU tercepat, dan 75 kali lebih cepat daripada AWS
Pada input 100.000 token, hanya 6 vendor yang mengembalikan hasil, dan Cerebras menjadi satu-satunya vendor non-GPU yang menyelesaikan benchmark dengan mencapai 539 token per detik
Waktu hingga token pertama adalah 240ms, dan pelanggan yang beralih dari GPT-4 melaporkan latensi keseluruhan berkurang 75%
Cerebras Inference untuk Llama 3.1 405B saat ini tersedia dalam versi pratinjau pelanggan, dengan ketersediaan umum pada kuartal 1 2025 serta harga input $6/M·output $12/M token

Rekor performa Llama 3.1 405B

Cerebras Inference mencapai 969 output tokens/s saat menjalankan Llama 3.1 405B
- Ini adalah hasil berdasarkan prompt 1.000 token
- Berdasarkan pengukuran Artificial Analysis, sistem ini mencetak rekor pada kecepatan output, performa konteks panjang, dan waktu token pertama
Dalam perbandingan yang sama, Llama 3.1 405B di Cerebras diperkenalkan sebagai 12 kali lebih cepat daripada GPT-4o dan 18 kali lebih cepat daripada Claude 3.5 Sonnet
Tahun ini, Cerebras telah mendorong Llama 3.1 8B dan 70B ke lebih dari 2.000 tokens/s, dan dijelaskan bahwa model frontier seperti GPT-4o, Claude 3.5 Sonnet, dan Llama 3.1 405B belum mampu melampaui 200 tokens/s di GPU, ASIC, maupun cloud mana pun
Perbandingan berdasarkan prompt 1.000 token adalah sebagai berikut
- 8 kali lebih cepat daripada SambaNova
- 12 kali lebih cepat daripada cloud GPU tercepat
- 75 kali lebih cepat daripada AWS
Pada prompt input 100.000 token, sistem ini mencatat 539 tokens/s
- Hanya 6 vendor yang mengembalikan hasil
- Cerebras adalah satu-satunya vendor non-GPU yang menyelesaikan benchmark
- 11 kali lebih cepat daripada Fireworks dan 44 kali lebih cepat daripada AWS

Latensi, jadwal ketersediaan, dan harga

Cerebras Inference untuk Llama 3.1 405B mencatat waktu token pertama 240ms
- Waktu token pertama adalah metrik latensi utama yang benar-benar dirasakan pengguna dalam aplikasi nyata
- Pada solusi berbasis GPU, waktu respons awal dapat meningkat hingga beberapa detik
Pelanggan yang beralih dari GPT-4 ke Cerebras Inference melaporkan bahwa latensi keseluruhan turun 75%
- Ini menghasilkan peningkatan pengalaman pengguna pada use case yang menuntut interaksi real-time, seperti aplikasi AI suara dan video
Cerebras Inference untuk Llama 3.1 405B saat ini tersedia sebagai pratinjau pelanggan
- Ketersediaan umum dijadwalkan pada kuartal 1 2025
- Harganya adalah $6 per 1 juta token input dan $12 per 1 juta token output
- Harga output 20% lebih rendah daripada AWS, Azure, dan GCP
Kombinasi pendekatan terbuka Meta dan teknologi inferensi Cerebras dijelaskan membuat Llama 3.1 405B berjalan lebih dari 10 kali lebih cepat daripada model frontier tertutup
- Ini diperkenalkan sebagai fondasi yang cocok untuk aplikasi suara, video, dan penalaran yang membutuhkan latensi rendah serta banyak langkah inferensi

1 komentar

GN⁺ 2024-11-20

Opini Hacker News

Benar-benar luar biasa cepat. Implementasi Llama 3.1 70B buatan sendiri di klaster 8x H100 saja sulit menembus 100 token/detik, jadi penasaran bagaimana mereka melakukannya.
Teknik umum seperti speculative decoding atau FlashAttention rasanya tidak akan cukup mendekati angka itu; setidaknya sepertinya perlu inferensi multinode atau sparse attention.
- Cerebras membuat semacam CPU dengan sekitar 1 juta core, dan menjalankan inferensi di atasnya, bukan di GPU. Arsitekturnya benar-benar berbeda, jadi jaringan tidak ikut terlibat.
  Mungkin sebagian besar pemrosesan juga terjadi di cache CPU ketimbang HBM. Untuk memahami desain chip-nya, saya merekomendasikan video YouTube TechTechPotato tentang Cerebras.
- Mereka melakukannya dengan custom silicon yang luas areanya beberapa kali lebih besar daripada 8x H100. Tentu saja pasti ada optimasi eksekusi/runtime, tetapi perbedaan utamanya tampaknya jumlah transistor yang luar biasa besar.
  https://cerebras.ai/product-chip/
- Chip-nya seukuran piring. Melihat fotonya akan langsung memberi gambaran: https://cerebras.ai/product-chip/
- Cerebras adalah perusahaan chip dan tidak memakai GPU. Chip ini menggunakan integrasi skala wafer, sehingga secara fisik ukurannya sebesar satu wafer penuh, kurang lebih seperti menggabungkan puluhan GPU menjadi satu.
  Memori on-chip terbatas dan semuanya SRAM, sementara berapa besar bandwidth HBM per wafer belum jelas. Ini adalah masalah optimasi yang sepenuhnya berbeda dari menjalankannya di klaster GPU.
- Rahasia besarnya ada dua. Chip-nya sangat besar, dan memorinya memakai SRAM sehingga jauh lebih cepat daripada HBM pada GPU.
  Sebenarnya inilah alasan utama mengapa bisa secepat itu. Groq juga mendapatkan kecepatan karena alasan yang sama.
Saya tidak yakin apakah latensi di sini benar-benar dibandingkan dalam kondisi yang sama. Latensi kira-kira terbagi menjadi tiga bagian: throughput pemrosesan konteks/prompt, waktu antrean menunggu akses hardware, dan overhead API umum seperti jaringan.
Sejauh yang saya pahami, beberapa, mungkin semua, layanan pembanding tidak berbasis kapasitas yang direservasi, sehingga angka pengukurannya mencakup waktu antrean. Pada LLM, waktu ini bisa cukup besar. Sebaliknya, angka Cerebras kemungkinan besar didapat dengan akses hardware yang dijamin, jadi sepertinya hampir tidak memasukkan waktu antrean yang bisa membesar tanpa batas.
Throughput-nya sendiri memang hebat, tetapi untuk memberikan throughput itu kepada pengguna akhir dengan latensi rendah, perlu over-provisioning, dan belum jelas bagaimana antrean akan memengaruhinya. Saya juga penasaran apakah ini dihitung pada mesin yang modelnya sudah siap, atau termasuk waktu loading model saat dibutuhkan. Perlu juga dilihat apakah latensi berubah ketika memakai model fine-tuned.
Untuk batch job yang bisa memanfaatkan mesin Cerebras 100% dan terus menghasilkan 1.000 token/detik, ini jelas terlihat menguntungkan.
- Bahkan kalau diasumsikan semua dalam kondisi ideal, ini tetap luar biasa. Pada batch size 1, model 405B parameter mencapai 1.000 token/detik—itu cepatnya tidak masuk akal.
Melihat apa saja yang bisa dilakukan dengan model generasi sekarang ditambah RAG, multi-agent, sampai code interpreter, kini temboknya lebih dekat ke latensi model, bukan akurasi.
Jika model kelas 405B bisa menghasilkan throughput token sebesar ini, akan ada sangat banyak pengalaman interaktif yang menjadi mungkin.
- Saya tidak begitu paham bagaimana rulebook membantu penanganan insiden. Menurut saya, insiden semestinya selalu baru, karena akar masalahnya diperbaiki.
  Jadi setiap kali harus menyelami kode atau kode yang baru saja di-deploy, lalu melihat korelasinya dengan metrik operasional. Kecuali yang dimaksud rulebook itu sekadar prosedur rollback.
Untuk memperjelas, satu chip Cerebras memakai seluruh wafer tetapi hanya memiliki SRAM 44GB di atasnya. Untuk memuat model 405B pada presisi bf16, bahkan tanpa menghitung KV cache dan memori aktivasi pun dibutuhkan 19 “chip” seperti ini.
Jika panjang sekuens bertambah, kebutuhan akan lebih besar karena KV cache. Kalau dicari, satu wafer bisa memuat sekitar 60–80 chip H100, jadi dari sisi biaya manufaktur wafer, ini kira-kira setara memakai lebih dari 1.500 H100.
- Anggaran yang perusahaan-perusahaan ini keluarkan untuk teknologi ini benar-benar di luar bayangan.
- Saya penasaran apakah biaya wafer benar-benar menjadi porsi besar dari harga chip sebenarnya.
Performa yang benar-benar mengesankan. Saya rasa cukup besar kemungkinan Nvidia mencoba mengakuisisi Cerebras.
- Cerebras sedang mempertimbangkan IPO. Kemungkinan akuisisi tampaknya rendah. Meski begitu, kalau diakuisisi, sepertinya akan lebih bernilai bagi Facebook atau MS.
Untuk mencoba API-nya, harus masuk daftar tunggu. Jika sebuah perusahaan membuat klaim seperti ini tetapi tidak menyediakan layanan yang bisa dibeli, kita perlu cukup skeptis.
Di antara startup chip AI, Cerebras mungkin yang benar-benar nyata.
- Groq juga nyata. Hanya saja Cerebras sejauh ini tampaknya belum bisa diskalakan seluas Groq. Kita lihat saja nanti.
- Timing-nya pas sekali menjelang IPO.
Tidak ada penyebutan tentang pesaing langsungnya, Groq?
- Sebagai pelanggan berbayar Groq, saya puas menggunakannya, tetapi di ranah 405B, Groq tidak bisa bersaing dengan Cerebras.
  Groq punya keunggulan karena menerima pelanggan berbayar di bawah level enterprise dan menawarkan beragam model secara luas, tidak sesangat terseleksi Cerebras. Namun dari sisi kecepatan murni dan model paling besar, Groq sulit dibandingkan.
- Sambanova juga jarang disebut [0]. Salah satu co-founder-nya dikenal sebagai “bapak prosesor multicore” [1].
  [0]: https://sambanova.ai/
  [1]: https://en.wikipedia.org/wiki/Kunle_Olukotun
Saya penasaran berapa biaya untuk menyajikan layanan dengan latensi seperti ini. Dari sisi pelanggan, biaya tetap akan bergantung pada strategi harga, tetapi pada akhirnya biayalah yang menentukan jangkauan penyebaran teknologi ini.
Yang penting adalah apakah ini hanya cocok untuk bisnis yang benar-benar membutuhkan latensi rendah, atau sudah berada pada tingkat yang bisa di-deploy secara umum.
- Apakah mungkin semua orang akhirnya menjadikan chip raksasa dan penggunaan SRAM sebagai standar?
  Ada berapa banyak produsen SRAM? Atau apakah strukturnya memang harus sepenuhnya terintegrasi di dalam chip?
Jika peningkatan performa seperti ini dimungkinkan dengan hardware baru, saya penasaran seberapa jauh performa training juga masih bisa didorong oleh hardware.
- Kalau tidak ada perubahan besar di sisi machine learning, sepertinya tidak akan luar biasa besar. Di sini ada dua sumbu: peningkatan efisiensi dan peningkatan jumlah komputasi.
  Menambah jumlah komputasi adalah cara paling jelas untuk menaikkan kecepatan, tetapi pada node proses dan presisi tipe data tertentu, tampaknya kita sudah cukup dekat dengan batas fisik. Sulit membuktikannya secara pasti, tetapi ada beberapa dasar. Matrix multiplication, operasi dasar LLM, sangat sederhana dibanding workload CPU, sehingga bagian seperti logika control flow sudah banyak diminimalkan. Sebagian besar daya dipakai untuk matrix multiplication itu sendiri, dan matrix multiplication memang dibatasi oleh daya[1]. Mengubah presisi bisa memberi keuntungan, tetapi itu sulit; kita sudah memakai presisi yang sangat rendah seperti fp8, dan fp8 bahkan tidak bisa merepresentasikan 17. Riset terbaru juga menunjukkan batasannya.
  Efisiensi training LLM diukur dengan metrik yang sangat keras bernama “model FLOPS utilization (MFU)”. Caranya adalah membagi FLOPS teoretis yang dapat disediakan hardware dengan FLOPS teoretis yang dibutuhkan untuk mengimplementasikan operasi matematis. Dengan FSDP saja, 30% mudah dicapai, dan 50–60% juga bukan mustahil atau tanpa preseden. Inefisiensi terutama muncul karena 1) hardware tidak benar-benar mampu memberikan FLOPS yang tertera karena berbagai alasan, dan 2) data berukuran terabyte harus disinkronkan di antara puluhan ribu mesin. Batas teoretisnya 2x, tetapi secara praktis tidak banyak ruang tersisa untuk diperas.
  Keuntungan ke depan kemungkinan besar akan terfokus pada TPU yang mengurangi margin Nvidia, perbaikan node proses, pengurangan tipe data seperti B100, atau memperbesar ukuran chip untuk mengurangi komunikasi antarchip yang mahal. Pada presisi yang sama dan node proses yang sama, tampaknya tidak ada ruang peningkatan 10x.
  [1]: https://www.thonking.ai/p/strangely-matrix-multiplications
- Solusi akhirnya mungkin adalah mengubah LLM menjadi ASIC murni.
  Performa mungkin naik sekitar 10x, tetapi itu akan menjadi solusi yang sangat mahal.

Cerebras Inference memproses 969 token per detik pada Llama 3.1 405B

Rekor performa Llama 3.1 405B

Latensi, jadwal ketersediaan, dan harga

Bacaan terkait

1 komentar

Opini Hacker News