1 poin oleh GN⁺ 2024-02-21 | 1 komentar | Bagikan ke WhatsApp

1 komentar

 
GN⁺ 2024-02-21
Komentar Hacker News
  • Ringkasan komentar pertama:

      • Demo teknologi ini sangat mengesankan, dan bagus karena ini adalah demo terbuka sungguhan yang bisa dicoba siapa pun tanpa perlu mendaftar akun.
      • Melihat token diproduksi dengan kecepatan jauh lebih tinggi dibanding yang biasa kita lihat sebelumnya terasa sangat luar biasa.
      • Menyebut bahwa mengejutkan teknologi ini belum diakuisisi oleh perusahaan besar seperti Microsoft, Apple, atau Google.
  • Ringkasan komentar kedua:

      • Masalah utama LPU dari Groq adalah tidak adanya HBM sama sekali, dan hanya memiliki SRAM ultracepat dalam jumlah sangat sedikit, yaitu 230 MiB.
      • Untuk melayani satu model, diperlukan 256 LPU (setara dengan 4 rak server).
      • Berguna ketika ada banyak pelanggan untuk satu model, tetapi kurang praktis ketika diperlukan banyak model dan fine-tuning.
  • Ringkasan komentar ketiga:

      • Demo ini mengesankan, tetapi tetap harus skeptis jika tidak ada benchmark.
      • Ada cara mempercepat model dengan mengorbankan kualitas, misalnya melalui kuantisasi model.
      • Diharapkan kemajuan token/detik LLM bisa berkembang seperti kemajuan instruksi per detik (IPS) CPU puluhan tahun lalu.
  • Ringkasan komentar keempat:

      • Seorang karyawan Groq yang mengatakan bahwa jika ada pertanyaan, silakan bertanya kapan saja.
      • Menyebut bahwa bagian dari pipeline kompilasi Groq ditulis dengan Haskell.
  • Ringkasan komentar kelima:

      • Demo ini mengesankan, namun karena kebutuhan dan biaya perangkat kerasnya, hanya perusahaan besar yang bisa mengaksesnya.
      • Ditanyakan kapan harga akan turun menjadi lebih terjangkau bagi para penghobi.
      • Demo CNN Vapi juga mengesankan, tetapi juga disebutkan bahwa layanan lain mampu menghadirkan percakapan yang alami dengan latensi audio yang lebih rendah.
      • Ia berbagi pendapat tentang ambang token/detik untuk memungkinkan interaksi waktu nyata dan bahwa kecepatan di atas itu mungkin bermanfaat untuk komunikasi antar-AI.
  • Ringkasan komentar keenam:

      • Mempertanyakan mengapa ini dianggap mengesankan dan mengapa tidak bisa meningkatkan kecepatan respons dengan menambah daya komputasi.
      • Mengutip chart NVIDIA dan menyebut bahwa H100 dapat menjalankan model 70B pada lebih dari 500 token/detik.
  • Ringkasan komentar ketujuh:

      • Diperhatikan bahwa halaman tidak berjalan ketika font tertentu tidak bisa diakses, sehingga permintaan harus dicoba berulang.
      • Ia menemukan isu ini saat browser memblokir pelacak semacam ini secara default.
  • Ringkasan komentar kedelapan:

      • Bertanya apakah teknologi ini terkait dengan model Grok dari x.ai.
      • Setelah dicoba, ia menyebut sangat terkesan dengan kecepatannya.
  • Ringkasan komentar kesembilan:

      • Mengagumi Groq dan Mixtral.
      • Berbagi pengalaman dengan demo yang menghasilkan file YAML GitLab CI dari prompt tertentu.
  • Ringkasan komentar kesepuluh:

      • Menyebut bahwa kinerja API Groq juga berada pada tingkat yang setara.
      • Berbagi bahwa benchmark berdasarkan waktu menunjukkan keberhasilan mempertahankan lebih dari 400 token/detik secara konsisten.