14 poin oleh xguru 2023-02-22 | Belum ada komentar. | Bagikan ke WhatsApp
  • Mesin generasi berkinerja tinggi untuk menjalankan LLM di lingkungan GPU terbatas seperti 16GB T4 / 24GB RTX3090
  • Offloading yang sangat cepat, hingga sekitar 100x, memungkinkan menjalankan model 175B di GPU tunggal
  • Mengompresi parameter dan attention cache semaksimal mungkin (diturunkan hingga 4-bit dengan hampir tanpa kehilangan akurasi)
  • Dapat dengan mudah diskalakan saat menambahkan GPU berkat runtime paralel terdistribusi

Belum ada komentar.

Belum ada komentar.