Groq Menjalankan Mixtral 8x7B-32k pada 500 T/s

(groq.com)

1 poin oleh GN⁺ 2024-02-21 | 1 komentar | Bagikan ke WhatsApp

Dalam situasi ketika kecepatan respons dan biaya inferensi menjadi bottleneck pada layanan AI, Groq menonjolkan infrastruktur inferensi yang cepat dan murah sebagai nilai utamanya
Pembeda utamanya adalah penggunaan stack berbasis LPU yang dikembangkan khusus untuk inferensi sejak 2016, bukan pendekatan yang berpusat pada GPU
GroqCloud mengoperasikan stack LPU di pusat data di seluruh dunia untuk menyediakan latensi rendah, dan menyatakan bahwa 3 juta pengembang dan tim menggunakannya
Pengembang dapat melakukan integrasi dengan relatif mudah pada klien yang kompatibel dengan OpenAI hanya dengan mengganti base_url dan GROQ_API_KEY
Setelah mengadopsi GroqCloud, Fintool mencatat kecepatan chat 7,41 kali lebih cepat dan biaya turun 89%, sementara McLaren Formula 1 Team juga memilih Groq sebagai mitra inferensi

Platform inferensi yang cepat dan murah

Groq memandang inferensi (inference) sebagai bahan bakar utama dalam AI, dan menonjolkan platform inferensi yang cepat dan murah yang tetap berjalan stabil pada workload nyata
Pesan utama di berandanya kurang lebih adalah “inferensi cepat dan murah yang tidak goyah bahkan dalam situasi nyata”
Perusahaan ini didirikan pada 2016, dan menjelaskan tujuan pendiriannya sebagai berfokus hanya pada inferensi

Stack khusus inferensi yang dibangun dengan LPU

Berbeda dengan perusahaan lain yang bergantung pada GPU, Groq menjadikan silikonnya sendiri sebagai kekuatan utama
Pada 2016, Groq memelopori LPU, yang dijelaskan sebagai chip pertama yang dibuat khusus untuk inferensi
Pilihan desain LPU berfokus pada menjaga respons model cerdas tetap cepat dan murah
Dengan pesan “yang benar-benar di-deploy adalah workload, bukan benchmark”, Groq menekankan lingkungan deployment nyata

Pusat data global dan GroqCloud

Stack berbasis LPU dijalankan di pusat data di seluruh dunia, dengan fokus pada penyediaan respons berlatensi rendah
Berdasarkan premis bahwa inferensi paling baik berjalan secara lokal, Groq menekankan konfigurasi yang menghadirkan respons model lebih dekat ke pengguna
GroqCloud adalah layanan cloud yang memungkinkan pengembang menggunakan inferensi yang cepat dan murah
Groq menyatakan bahwa 3 juta pengembang dan tim menggunakan Groq

Integrasi pengembang yang kompatibel dengan OpenAI

Groq menekankan integrasi yang kompatibel dengan OpenAI, dan menjelaskan bahwa perpindahan bisa dilakukan hanya dalam “dua baris”
Contoh Python menetapkan nilai berikut pada klien openai.OpenAI
- base_url="https://api.groq.com/openai/v1";
- api_key=os.environ.get("GROQ_API_KEY")
Pengembang dapat memulai dari konsol Groq atau menerbitkan API key gratis untuk digunakan

Studi kasus pelanggan dan kemitraan

McLaren Formula 1 Team diperkenalkan sebagai contoh mitra yang memilih Groq untuk inferensi global
McLaren F1 Team memilih Groq untuk pengambilan keputusan, analisis, pengembangan, dan insight real-time
CTO PGA of America, Kevin Scott, mengatakan bahwa mereka menggunakan Groq untuk pekerjaan yang menuntut performa lebih tinggi
CEO Fintool, Nicolas Bustamante, mengalami perubahan berikut setelah mengadopsi GroqCloud
- Kecepatan chat naik 7,41 kali
- Biaya turun 89%
- Konsumsi token naik 3 kali
CTO Opennote, Abhigyan Arya, menyatakan bahwa Groq menurunkan biaya dan beban operasional, serta membantu menjaga harga paket premium untuk pelajar tetap masuk akal

Item berita yang dirilis bersama

Groq Raises $750 Million as Inference Demand Surges: item tertanggal 17 September 2025
Day Zero Support for OpenAI Open Models: item tertanggal 5 Agustus 2025
From Speed to Scale: How Groq Is Optimized for MoE & Other Large Models: item tertanggal 27 Mei 2025

1 komentar

GN⁺ 2024-02-21

Opini Hacker News

Ini termasuk demo teknologi paling mengesankan yang pernah saya lihat seumur hidup, dan saya suka karena ini adalah demo publik sungguhan yang bisa langsung dicoba siapa saja tanpa perlu mendaftar
Melihat token mengalir dengan kecepatan gila terasa nyaris tidak nyata, dan jadi lebih mengejutkan karena biasanya saya terbiasa dengan kecepatan yang bahkan tidak sampai 1/5-nya. Aneh juga bahwa mereka belum diakuisisi dengan premi besar oleh perusahaan seperti Microsoft, Apple, atau Google
- Kalau saya memahaminya dengan benar, tiap chip punya RAM 200MB, jadi untuk menjalankan satu LLM saja perlu beberapa rack, dan itu tidak terdengar seperti kemajuan
  Yang dibutuhkan adalah satu board PCIe dengan RAM puluhan hingga ratusan GB serta prosesor yang bisa menanganinya dengan baik
- Perplexity Labs juga punya demo publik Mixtral 8x7b, tetapi tidak secepat ini
  https://labs.perplexity.ai/
- Saya benar-benar tidak paham kenapa ini begitu luar biasa, dan penasaran
  Yang utama adalah berapa TFLOPS/$ dan TFLOPS/W-nya, serta bagaimana perbandingannya dengan Nvidia, AMD, dan TPU. Dari pencarian sepintas, Groq tampaknya sudah membuat klaim serupa sejak 2020, tetapi orang-orang masih membayar premi besar untuk Nvidia, dan Groq sepertinya belum benar-benar mengguncang pasar itu. Menjalankan model yang jauh lebih kecil daripada ChatGPT di hardware yang setara atau lebih kuat memang bisa menjadi cepat, tetapi itu tidak berarti sebuah terobosan untuk sebagian besar model atau use case ketika latensi bukan metrik utama
- Kenapa harus menjual? Sepertinya jauh lebih menyenangkan mengalahkan mereka di permainan mereka sendiri
Masalah utama Groq LPU adalah tidak ada HBM sama sekali, hanya ada SRAM supercepat 230MiB yang sangat kecil
Memang 20 kali lebih cepat daripada HBM3, tetapi akibatnya untuk melayani satu model saja diperlukan sekitar 256 LPU, yaitu skala 4 rack server. Sebaliknya, satu H200 saja sudah bisa melayani model-model seperti ini dengan cukup masuk akal. Ini mungkin cocok untuk satu model tunggal dengan banyak pelanggan, tetapi begitu membutuhkan banyak model serta banyak fine-tuning dan LoRA ber-rank tinggi, ia menjadi sulit dipakai. Ini juga tidak cocok untuk deployment on-premise, karena keunggulan utamanya adalah mengumpulkan banyak pengguna pada model yang sama
https://wow.groq.com/groqcard-accelerator/
https://twitter.com/tomjaguarpaw/status/1759615563586744334
- Dari sudut pandang engineer Groq, saya tidak begitu mengerti kenapa kemampuan menskalakan komputasi ke luar satu kartu atau satu node dianggap masalah
  Saya suka analogi pabrik mobil: dengan satu atau dua bor pun Anda bisa membuat mobil, tetapi pabrik otomatis modern punya ratusan bor. Dengan satu bor Anda mungkin bisa membuat banyak jenis mobil, tetapi lini perakitan pabrik hanya bisa membuat mobil dengan konfigurasi tertentu. Itu tidak berarti pabriknya tidak efisien. Pernyataan bahwa H200 bekerja cukup baik juga mungkin masuk akal untuk penggunaan interaksi manusia sinkron, tetapi masih bisa diperdebatkan. Saya ingin melihat contoh model 30B+ parameter di Nvidia yang melakukan RAG selama percakapan dan menghasilkan respons suara dalam kurang dari 1 detik
- Groq menyatakan dalam artikel bahwa mereka memakai 576 chip untuk hasil ini
  Perlu juga dihitung bahwa setiap pengguna membutuhkan KV cache terpisah, dan itu bisa menambahkan beberapa GB lagi per pengguna. Menurut penilaian profesional saya sebagai pengamat independen, biaya pokok pendapatan untuk menghasilkan angka performa seperti ini kemungkinan besar melampaui jutaan dolar, dan mengamortisasikannya terhadap perkiraan pemakaian agar sesuai dengan harga teoretis yang dipublikasikan tampak tidak realistis. Dari perspektif performa aktual per dolar, ini terlihat kurang layak, tetapi jika biaya diabaikan, ini memang demo yang sangat keren dengan performa gila
  https://www.nextplatform.com/2023/11/27/groq-says-it-can-dep...
- Jika targetnya latensi rendah, HBM harus diperlakukan dengan sangat hati-hati. Selain latensinya sendiri, nondeterminisme juga menjadi masalah
  Keunggulan besar arsitektur LPU adalah bisa membuat sistem ratusan chip dengan interconnect cepat sambil tetap mengetahui timing persis seluruh sistem hingga tingkat ppm. Begitu Anda mulai memasukkan komponen nondeterministik, jaminan latensi akan hilang dengan sangat cepat
- Perangkat Groq sangat cocok untuk inferensi batch kecil berkat SRAM
  Namun saya tidak yakin apakah ada keunggulan token/detik/dolar, terutama untuk pengguna batch menengah-besar yang mampu membeli banyak silikon. Secara arsitektur, Groq tampaknya tidak akan menjadi lebih cepat saat batch size melewati 1, sementara kartu Nvidia sepertinya akan mendapat peningkatan throughput yang signifikan ketika batch size naik ke orde ratusan
- Mungkin ada cara untuk memuat satu model dasar dan banyak LoRA tanpa memakai RAM jauh lebih banyak daripada yang dibutuhkan model dasar saja
  Fine-tuning bisa dilakukan dengan hanya mengubah sekitar 0,1% bobot, dan di setiap komputasi yang dihitung bukan selisih bobot, melainkan selisih aktivasi layer output
Sekilas terlihat sangat mengesankan. Namun tanpa benchmark, sebaiknya tetap agak skeptis
Karena ada banyak jalan pintas seperti kuantisasi agresif yang mengorbankan kualitas demi meningkatkan kecepatan. Kalau bukan begitu, saya ingin melihat kemajuan token/detik LLM berlanjut seperti instruksi/detik CPU beberapa dekade lalu
- Saya setuju dengan sikap ilmuwan bahwa pada dasarnya kita harus mendekatinya secara skeptis
  Aplikasi chat dan API sudah dibuka agar siapa pun bisa bereksperimen dan membandingkan kualitas output dengan penyedia lain
- Seperti yang dikatakan tome sebelumnya, kami tidak melakukan kuantisasi, dan semua nilai aktif adalah FP16
  Ada juga benchmark independen: https://artificialanalysis.ai/models/llama-2-chat-70b
- Pada demo Llama 70B sebelumnya, mereka mengklaim menjalankannya tanpa kuantisasi
  https://twitter.com/lifebypixels/status/1757619926360096852
  Namun di komentar ini disebutkan bahwa “sebagian data disimpan sebagai FP8 saat disimpan”, dan saya tidak tahu persis apa artinya: https://news.ycombinator.com/item?id=39432025
- Dalam proses benchmarking Groq, saya menanyakan apakah ada kuantisasi, dan mendapat konfirmasi bahwa model dijalankan dalam FP-16 penuh
  Ini poin yang bagus untuk diverifikasi dan bagian yang penting. Tautan benchmark: https://artificialanalysis.ai/
  Yang ditanyakan adalah API, bukan demo chat
- Mungkin analoginya terlalu dipaksakan, tetapi apakah LLM sudah memasuki era transistor?
  Melihat monster 70 miliar parameter, rasanya seperti masih membangun ENIAC dengan tabung vakum. Dengan kata lain, saya penasaran apakah sekarang kita sudah siap meningkatkan token/detik LLM secara konsisten setiap tahun, atau apakah masih diperlukan satu-dua terobosan besar sebelum itu
Saya bekerja di Groq. Silakan tanya apa saja
Kalau melihat riwayat postingan HN saya, saya sering membahas Haskell, dan itu benar. Sebagian pipeline kompilasi Groq ditulis dalam Haskell
- Mungkin ini bug antarmuka web, tetapi setelah memasukkan prompt ke model Mixtral dan menerima respons, lalu mengganti dropdown ke Llama dan memasukkan prompt yang sama, saya mendapat respons yang persis sama
  Bisa jadi caching, model yang dituju sebenarnya tidak berubah, atau hal lain
- Haskell tampak cukup unik di ranah machine learning
  Saya penasaran apakah pilihan ini punya keunggulan khusus, dan apakah layak direkomendasikan ke tim lain. Saya juga ingin tahu bagian proyek mana yang memakai Haskell dan mana yang tidak
- Sejauh yang saya pahami, kalian meningkatkan kecepatan pembuatan token dengan hardware khusus, sementara pembuatan token sangat terikat pada latensi kecepatan komputasi
  Namun pembuatan token biasanya hanya membutuhkan perkalian matriks 1D. Jika memasukkan prompt sekitar 100 token, layanan menjadi jauh lebih lambat, mungkin karena harus mengalikan matriks 2D. Saya penasaran apa yang dilakukan untuk meningkatkan kecepatan komputasi pemrosesan prompt
- Kalian tampak seperti salah satu dari sedikit perusahaan yang menargetkan inference berlatensi rendah, dan tidak hanya berfokus pada throughput serta biaya per inference yang mengikutinya
  Saya penasaran pasar utama yang kalian lihat di mana
- Terima kasih untuk AMA. Saya penasaran berapa banyak GroqCard yang dipakai untuk menjalankan demo, dan apakah kalian memakai model baru dengan SRAM lebih besar daripada 230MB SRAM yang terlihat online
  Angka ini sepertinya akan memengaruhi pemanfaatan batch processing dan pengurangan biaya. Selain itu, jika pipeline TTS bisa diintegrasikan ke dalam stack, panggilan dengan latensi yang benar-benar rendah tampaknya memungkinkan. Saya berasumsi produk yang dipakai adalah ini: https://www.bittware.com/products/groq/
Demo yang mengesankan
Namun karena kebutuhan hardware dan biaya, tampaknya sulit diakses kecuali oleh perusahaan besar. Saya penasaran kapan kira-kira kisaran harga yang terjangkau bagi developer hobi bisa tercapai. Demo CNN Vapi juga mengesankan, tetapi https://smarterchild.chat/ yang dibagikan beberapa minggu lalu juga memungkinkan percakapan alami dengan latensi suara yang sangat rendah. Dari diskusi itu, sepertinya dibuat oleh https://www.sindarin.tech/, dan saya penasaran apakah mereka memakai Groq LPU atau yang lain. Saya rasa jika mencapai sekitar 50 t/s, interaksi real-time sudah memungkinkan. Di atas itu berguna untuk mempercepat pembuatan data massal, tetapi karena jauh melampaui kecepatan yang bisa diproses manusia, manfaat yang terasa akan berkurang. Itu mungkin berguna untuk komunikasi antarsesama AI, transfer pengetahuan/konteks, dan semacamnya. Kalau begitu, mungkin produk LPU yang hanya berfokus pada interaksi AI-manusia bisa dibuat dengan performa jauh lebih rendah dan biaya jauh lebih rendah
https://news.ycombinator.com/item?id=39180237
- Akses API token sebagai layanan menjamin biaya per token lebih rendah daripada penyedia mana pun
  Lihat https://wow.groq.com. Untuk penjualan hardware, fokusnya adalah penjualan sistem lengkap, dan pada praktiknya hanya cocok untuk perusahaan atau lembaga riset
- Untuk berinteraksi real-time dengan sistem AI, kecepatan yang jauh lebih tinggi dari 50 t/s mutlak diperlukan
  Sebagian besar output LLM akan dipakai untuk monolog internal, perencanaan, RAG, peringkasan, dan sebagainya, sementara hanya output akhir yang disampaikan kepada pengguna. Bayangkan GPT-5 yang sangat cepat menyusun rencana jawaban beberapa kali, menelusuri web, menulis ulasan bacaan, berdebat dengan dirinya sendiri, menyaring temuan, mengkritik jawabannya, lalu menulis ulang dalam beberapa kedipan mata
- Mengingat ukuran tim Sindarin tampaknya sekitar 3 orang, ini lebih terlihat seperti penggabungan teknologi yang sudah ada dengan sangat cerdas
  Ada API suara yang menyediakan transkripsi real-time per kata, dan Google juga punya yang seperti itu. Rahasia utamanya kemungkinan besar adalah pipelining yang dirancang sangat baik antara speech recognition → LLM → TTS. Bukan bermaksud meremehkan pencapaian mereka; justru saya jadi tertarik karena penasaran bagaimana hasil itu bisa direproduksi
Tidak selalu cepat; jika mengajukan pertanyaan yang kompleks atau memasukkan pre-prompt yang meminta berbicara dengan gaya berbeda, tetap butuh waktu untuk memuat
Memang menarik, tetapi pada akhirnya tampaknya besar kemungkinan menjadi produk gagal
Jika halaman tidak bisa mengakses font tertentu, operasinya gagal dan permintaan terus dicoba ulang
Saya menemukannya karena browser secara default memblokir sesuatu yang pada praktiknya merupakan pelacak seperti ini
https://fonts.gstatic.com/s/notosansarabic/[...]
https://fonts.gstatic.com/s/notosanshebrew/[...]
https://fonts.gstatic.com/s/notosanssc/[...]
- Sepertinya ini cara untuk menunjukkan kepada Google seberapa populer dan menariknya situs itu sebagai target akuisisi, tanpa memasang pelacak Google secara langsung di situs web
- Bahkan jika mencoba memakai penggantian font dengan plugin privasi, masalah yang sama muncul
  Cukup aneh bahwa ada dependensi seperti ini
Saya agak awam di bidang ini, jadi ingin bertanya. Mengapa ini mengesankan?
Bukankah untuk membuat respons cepat, cukup menambahkan lebih banyak komputasi? Fakta bahwa antrean muncul saat ada beban bukankah hanya menunjukkan trade-off antara jumlah permintaan yang bisa diproses per satuan waktu dan jumlah komputasi yang dialokasikan agar respons lebih cepat? Grafik NVIDIA ini tampak berarti H100 menjalankan llama v2 70B di atas 500 tok/s
https://raw.githubusercontent.com/NVIDIA/TensorRT-LLM/rel/do...
- Menambah komputasi bisa meningkatkan throughput, tetapi latensi antartoken tidak mudah diperbaiki
  Pada generasi teks, bottleneck biasanya adalah waktu yang dibutuhkan untuk melewati jaringan pada setiap token. Untuk mempercepatnya, komputasi itu sendiri harus dilakukan lebih cepat, dan setelah opsi yang jelas seperti memakai akselerator tercepat atau cache sudah habis, ini menjadi masalah yang sulit
- Inferensi LLM pada dasarnya adalah masalah sekuensial
  Melakukan lebih banyak hal secara paralel tidak membuatnya lebih cepat. Anda tidak bisa membuat token ke-101 sebelum membuat token ke-100
- Throughput token dan latensi itu berbeda
  Throughput token adalah throughput keseluruhan GPU/sistem, sedangkan latensi adalah throughput token dari sudut pandang pengguna individual. Groq menyediakan latensi yang sangat rendah, yaitu throughput token per pengguna yang sangat tinggi, tetapi angka total throughput token seluruh sistemnya belum ada. Sebaliknya, metrik Nvidia di sini menunjukkan throughput token keseluruhan GPU/sistem. Bahkan jika sebenarnya bisa mendapatkan 1,5k t/s di H100, throughput token per pengguna berdasarkan latensi bisa jauh lebih rendah, misalnya 20 t/s. Metrik yang benar-benar penting adalah biaya per token. Fakta bahwa Groq bisa berjalan dengan latensi rendah tidak berarti bisa melakukannya dengan murah. Perkiraan yang berguna adalah membagi biaya sistem dengan throughput token per detik seluruh sistem, tetapi karena tidak ada total throughput token per detik untuk sistem Groq, sulit membicarakan efisiensinya; saat ini mereka mungkin mensubsidi biaya sistem demi PR lalu menaikkan harga nanti
- Pada akhirnya tampaknya tergantung berapa biaya infrastruktur dalam artikel utama
  Biaya produksi H100 hanya sekitar 3.300 dolar, tetapi rata-rata dijual sekitar 30 ribu dolar
  https://www.hpcwire.com/2023/08/17/nvidia-h100-are-550000-gp...
- Sepertinya Nvidia menuliskan throughput maksimum berdasarkan pemrosesan batch. Misalnya, 50 tok/s untuk masing-masing 10 prompt berbeda secara bersamaan
  Groq LPU jelas mengungguli H100 dalam kecepatan murni. Namun pada dasarnya ini adalah sistem yang harganya 500 kali lipat tetapi kecepatannya 10 kali lipat, dan kesannya perusahaan yang mengoperasikan blockchain sedang memasarkan secara agresif chip yang semula ditujukan untuk penambangan kripto sebagai chip inferensi LLM. Cukup lucu juga kebetulannya bahwa setiap minggu ketika seseorang terkesan lalu mengunggah tautan ini, para insinyur Groq sudah siaga di komentar dan siap memberi berbagai jawaban
Apakah ini sama sekali tidak ada hubungannya dengan model Grok yang disediakan x.ai?
Saya sudah mencobanya dan kecepatannya sangat mengesankan
- Tidak ada hubungannya dengan Elon, dan kami di Groq memakai nama itu lebih dulu
  Di bidang AI, itu pilihan nama yang alami karena keterkaitannya dengan semangat peretas, tetapi merek dagangnya kami miliki dan Elon tidak
  https://wow.groq.com/hey-elon-its-time-to-cease-de-grok/
- Kalau tidak ada komentar ini, saya mungkin mengira itu dibuat oleh Twitter
- Ada juga mainan anak bernama Grok yang menggunakan LLM untuk berbicara dengan anak
Baik Groq maupun Mixtral sama-sama membuat saya ternganga
Saya mencoba prompt berikut: buat file yaml GitLab CI untuk proyek frontend/backend hibrida, dengan frontend Node di bawah /frontend yang dipaketkan dengan yarn dan dibangun dengan vite lalu dimasukkan ke /backend/public, sementara backend-nya adalah server Python Flask
- Meski begitu, ia masih membuat kesalahan pada kode Python sederhana
  particles = np.zeros((2, 3)) # position, velocity, and acceleration
  particles[:, 0] = [0.0, 0.0, 0.0] # initial position

Groq Menjalankan Mixtral 8x7B-32k pada 500 T/s

Platform inferensi yang cepat dan murah

Stack khusus inferensi yang dibangun dengan LPU

Pusat data global dan GroqCloud

Integrasi pengembang yang kompatibel dengan OpenAI

Studi kasus pelanggan dan kemitraan

Item berita yang dirilis bersama

Bacaan terkait

1 komentar

Opini Hacker News