3 poin oleh GN⁺ 2024-11-20 | 1 komentar | Bagikan ke WhatsApp

Sorotan Llama 3.1 405B di Cerebras Inference

  • Menghasilkan 969 token output per detik - 12 kali lebih cepat dibanding hasil GPU terbaik
  • Waktu ke token pertama 240ms - lebih singkat daripada sebagian besar API
  • Mendukung panjang konteks 128K - performa tertinggi yang pernah tercatat
  • Bobot 16-bit - mempertahankan akurasi model penuh
  • Rilis umum dijadwalkan pada kuartal pertama 2025, $6 per sejuta token input, $12 per sejuta token output

AI frontier dengan kecepatan instan

  • Cerebras tahun ini telah mendorong Llama 3.1 8B dan 70B melampaui 2.000 token per detik
  • Model frontier seperti GPT-4o, Claude 3.5 Sonnet, dan Llama 3.1 405B belum pernah melampaui 200 token per detik di GPU, ASIC, maupun cloud
  • Cerebras Inference menyelesaikan masalah ini sehingga Llama 3.1 405B dapat memberikan performa penuh pada konteks 128K
  • Mencetak rekor dengan menghasilkan 969 token output per detik pada prompt 1.000 token
  • Mencapai 539 token/detik pada prompt input 100.000 token, 11 kali lebih cepat daripada Fireworks dan 44 kali lebih cepat daripada AWS

Latensi terbaik

  • Waktu ke token pertama adalah salah satu metrik terpenting dalam aplikasi nyata
  • Dengan 240 milidetik, Cerebras memberikan waktu token pertama tercepat di antara semua platform yang menjalankan Llama 3.1-405B
  • Waktu respons yang jauh lebih cepat dibanding solusi berbasis GPU secara signifikan meningkatkan pengalaman pengguna

Ketersediaan

  • Cerebras Inference untuk Llama 3.1-405B saat ini sedang dalam uji coba pelanggan, dan dijadwalkan rilis umum pada kuartal pertama 2025
  • Harga output 20% lebih murah dibanding AWS, Azure, dan GCP

Model terbuka adalah model tercepat

  • Berkat pendekatan terbuka Meta dan teknologi inferensi inovatif dari Cerebras, Llama 3.1-405B berjalan lebih dari 10 kali lebih cepat dibanding model frontier tertutup
  • Menyediakan fondasi yang cocok untuk aplikasi suara, video, dan penalaran

1 komentar

 
GN⁺ 2024-11-20
Opini Hacker News
  • Sulit untuk melampaui 100 tok/s saat menjalankan model Llama 3.1 70b di klaster 8x H100

    • Penasaran bagaimana mereka mencapai kecepatan ini
    • Sepertinya diperlukan inferensi multi-node atau mekanisme sparse attention
  • Tidak yakin perbandingan latensinya adil

    • Latensi mencakup throughput pemrosesan konteks/prompt, waktu tunggu akses perangkat keras, dan overhead API lainnya
    • Angka dari Cerebras kemungkinan besar hampir tidak memasukkan waktu tunggu
  • Untuk memberikan throughput tinggi dengan latensi yang baik, diperlukan overprovisioning yang berlebihan

    • Tidak jelas apakah latensi tersebut mencakup pemuatan model
    • Dalam pekerjaan batch, mesin Cerebras dapat dimanfaatkan 100% untuk mempertahankan 1k tokens/s secara terus-menerus
  • Dengan model generasi saat ini serta RAG, multi-agent, dan code interpreter, latensi model menjadi bottleneck

    • Throughput token pada model kelas 405B memungkinkan banyak pengalaman interaktif
  • Chip Cerebras menggunakan seluruh wafer dan hanya mencakup 44GB SRAM

    • Diperlukan 19 chip agar model 405B muat pada presisi bf16
    • Jika dilihat dari biaya produksi wafer, ini setara dengan menggunakan lebih dari 1500 H100
  • Ada daftar tunggu untuk mencoba API

    • Wajar untuk bersikap skeptis terhadap klaim perusahaan ketika layanannya belum bisa dibeli
  • Saya rasa kemungkinan besar Nvidia akan mengakuisisi Cerebras

  • Mengesankan bahwa peningkatan performa masih dimungkinkan dengan perangkat keras baru

    • Penasaran sejauh mana batas peningkatan performa pelatihan melalui perangkat keras
  • Ingin melihat perbandingan token/detik/watt

  • Tidak ada penyebutan tentang pesaingnya, Groq

  • Penasaran berapa biaya yang dibutuhkan untuk menyediakan layanan dengan latensi seperti ini

    • Biaya akan menentukan seberapa luas ini bisa diadopsi
    • Ingin tahu apakah ini benar-benar hanya untuk bisnis yang membutuhkan latensi sangat rendah, atau bisa diterapkan secara umum