Demo teknologi ini sangat mengesankan, dan bagus karena ini adalah demo terbuka sungguhan yang bisa dicoba siapa pun tanpa perlu mendaftar akun.
Melihat token diproduksi dengan kecepatan jauh lebih tinggi dibanding yang biasa kita lihat sebelumnya terasa sangat luar biasa.
Menyebut bahwa mengejutkan teknologi ini belum diakuisisi oleh perusahaan besar seperti Microsoft, Apple, atau Google.
Ringkasan komentar kedua:
Masalah utama LPU dari Groq adalah tidak adanya HBM sama sekali, dan hanya memiliki SRAM ultracepat dalam jumlah sangat sedikit, yaitu 230 MiB.
Untuk melayani satu model, diperlukan 256 LPU (setara dengan 4 rak server).
Berguna ketika ada banyak pelanggan untuk satu model, tetapi kurang praktis ketika diperlukan banyak model dan fine-tuning.
Ringkasan komentar ketiga:
Demo ini mengesankan, tetapi tetap harus skeptis jika tidak ada benchmark.
Ada cara mempercepat model dengan mengorbankan kualitas, misalnya melalui kuantisasi model.
Diharapkan kemajuan token/detik LLM bisa berkembang seperti kemajuan instruksi per detik (IPS) CPU puluhan tahun lalu.
Ringkasan komentar keempat:
Seorang karyawan Groq yang mengatakan bahwa jika ada pertanyaan, silakan bertanya kapan saja.
Menyebut bahwa bagian dari pipeline kompilasi Groq ditulis dengan Haskell.
Ringkasan komentar kelima:
Demo ini mengesankan, namun karena kebutuhan dan biaya perangkat kerasnya, hanya perusahaan besar yang bisa mengaksesnya.
Ditanyakan kapan harga akan turun menjadi lebih terjangkau bagi para penghobi.
Demo CNN Vapi juga mengesankan, tetapi juga disebutkan bahwa layanan lain mampu menghadirkan percakapan yang alami dengan latensi audio yang lebih rendah.
Ia berbagi pendapat tentang ambang token/detik untuk memungkinkan interaksi waktu nyata dan bahwa kecepatan di atas itu mungkin bermanfaat untuk komunikasi antar-AI.
Ringkasan komentar keenam:
Mempertanyakan mengapa ini dianggap mengesankan dan mengapa tidak bisa meningkatkan kecepatan respons dengan menambah daya komputasi.
Mengutip chart NVIDIA dan menyebut bahwa H100 dapat menjalankan model 70B pada lebih dari 500 token/detik.
Ringkasan komentar ketujuh:
Diperhatikan bahwa halaman tidak berjalan ketika font tertentu tidak bisa diakses, sehingga permintaan harus dicoba berulang.
Ia menemukan isu ini saat browser memblokir pelacak semacam ini secara default.
Ringkasan komentar kedelapan:
Bertanya apakah teknologi ini terkait dengan model Grok dari x.ai.
Setelah dicoba, ia menyebut sangat terkesan dengan kecepatannya.
Ringkasan komentar kesembilan:
Mengagumi Groq dan Mixtral.
Berbagi pengalaman dengan demo yang menghasilkan file YAML GitLab CI dari prompt tertentu.
Ringkasan komentar kesepuluh:
Menyebut bahwa kinerja API Groq juga berada pada tingkat yang setara.
Berbagi bahwa benchmark berdasarkan waktu menunjukkan keberhasilan mempertahankan lebih dari 400 token/detik secara konsisten.
1 komentar
Komentar Hacker News
Ringkasan komentar pertama:
Ringkasan komentar kedua:
Ringkasan komentar ketiga:
Ringkasan komentar keempat:
Ringkasan komentar kelima:
Ringkasan komentar keenam:
Ringkasan komentar ketujuh:
Ringkasan komentar kedelapan:
Grokdari x.ai.Ringkasan komentar kesembilan:
Ringkasan komentar kesepuluh: