FlexGen - Menjalankan LLM seperti ChatGPT di GPU tunggal

xguru · 2023-02-22T10:16:02+09:00

Mesin generasi berkinerja tinggi untuk menjalankan LLM di lingkungan GPU terbatas seperti 16GB T4 / 24GB RTX3090 Offloading yang sangat cepat, hingga sekitar 100x, memungkinkan menjalankan model 175B di GPU tunggal Mengompresi parameter dan attention cache semaksimal mungkin (diturunkan hingga 4-bit dengan hampir tanpa kehilangan akurasi) Dapat dengan mudah diskalakan saat menambahkan GPU berkat runtime paralel terdistribusi

(github.com/FMInference)

14 poin oleh xguru 2023-02-22 | Belum ada komentar. | Bagikan ke WhatsApp

Mesin generasi berkinerja tinggi untuk menjalankan LLM di lingkungan GPU terbatas seperti 16GB T4 / 24GB RTX3090
Offloading yang sangat cepat, hingga sekitar 100x, memungkinkan menjalankan model 175B di GPU tunggal
Mengompresi parameter dan attention cache semaksimal mungkin (diturunkan hingga 4-bit dengan hampir tanpa kehilangan akurasi)
Dapat dengan mudah diskalakan saat menambahkan GPU berkat runtime paralel terdistribusi

FlexGen - Menjalankan LLM seperti ChatGPT di GPU tunggal

Bacaan terkait

Belum ada komentar.