FlexGen - Menjalankan LLM seperti ChatGPT di GPU tunggal
(github.com/FMInference)- Mesin generasi berkinerja tinggi untuk menjalankan LLM di lingkungan GPU terbatas seperti 16GB T4 / 24GB RTX3090
- Offloading yang sangat cepat, hingga sekitar 100x, memungkinkan menjalankan model 175B di GPU tunggal
- Mengompresi parameter dan attention cache semaksimal mungkin (diturunkan hingga 4-bit dengan hampir tanpa kehilangan akurasi)
- Dapat dengan mudah diskalakan saat menambahkan GPU berkat runtime paralel terdistribusi
Belum ada komentar.