PowerInfer - Menyajikan LLM dengan cepat menggunakan GPU konsumen

xguru · 2023-12-21T10:51:02+09:00

Saat menjalankan Falcon(ReLU)-40B-FP16 pada RTX 4090(24G), performanya 11 kali lebih cepat dibanding llama.cpp Mesin inferensi LLM hibrida CPU/GPU yang memanfaatkan activation locality pada perangkat Membedakan sebagian hot neuron yang aktif secara konsisten dan mayoritas cold neuron yang berubah tergantung input Hot neuron dimuat lebih dulu ke GPU agar dapat diaktifkan dengan cepat, sementara cold neuron dihitung di CPU sehingga secara signifikan mengurangi kebutuhan memori GPU dan transfer data CPU-GPU Mengintegrasikan prediktor adaptif dan operator sparse yang sadar-neuron untuk mengoptimalkan efisiensi aktivasi neuron dan sparsitas komputasi Pada satu GPU NVIDIA RTX 4090, mencapai kecepatan generasi token rata-rata 13,20 token/detik dan maksimum 29,08 token/detik di berbagai LLM (termasuk OPT-175B) Ini hanya 18% lebih rendah daripada yang dicapai GPU A100 kelas server papan atas Dengan tetap mempertahankan akurasi model, performanya jauh melampaui llama.cpp hingga 11,69 kali lipat

(github.com/SJTU-IPADS)

16 poin oleh xguru 2023-12-21 | 1 komentar | Bagikan ke WhatsApp

Saat menjalankan Falcon(ReLU)-40B-FP16 pada RTX 4090(24G), performanya 11 kali lebih cepat dibanding llama.cpp
Mesin inferensi LLM hibrida CPU/GPU yang memanfaatkan activation locality pada perangkat
- Membedakan sebagian hot neuron yang aktif secara konsisten dan mayoritas cold neuron yang berubah tergantung input
- Hot neuron dimuat lebih dulu ke GPU agar dapat diaktifkan dengan cepat, sementara cold neuron dihitung di CPU sehingga secara signifikan mengurangi kebutuhan memori GPU dan transfer data CPU-GPU
Mengintegrasikan prediktor adaptif dan operator sparse yang sadar-neuron untuk mengoptimalkan efisiensi aktivasi neuron dan sparsitas komputasi
Pada satu GPU NVIDIA RTX 4090, mencapai kecepatan generasi token rata-rata 13,20 token/detik dan maksimum 29,08 token/detik di berbagai LLM (termasuk OPT-175B)
- Ini hanya 18% lebih rendah daripada yang dicapai GPU A100 kelas server papan atas
- Dengan tetap mempertahankan akurasi model, performanya jauh melampaui llama.cpp hingga 11,69 kali lipat

1 komentar

cosine20 2023-12-28

4090 memang termasuk GPU konsumen sih wkwk.....

PowerInfer - Menyajikan LLM dengan cepat menggunakan GPU konsumen

Bacaan terkait

1 komentar