- Saat menjalankan Falcon(ReLU)-40B-FP16 pada RTX 4090(24G), performanya 11 kali lebih cepat dibanding
llama.cpp
- Mesin inferensi LLM hibrida CPU/GPU yang memanfaatkan activation locality pada perangkat
- Membedakan sebagian hot neuron yang aktif secara konsisten dan mayoritas cold neuron yang berubah tergantung input
- Hot neuron dimuat lebih dulu ke GPU agar dapat diaktifkan dengan cepat, sementara cold neuron dihitung di CPU sehingga secara signifikan mengurangi kebutuhan memori GPU dan transfer data CPU-GPU
- Mengintegrasikan prediktor adaptif dan operator sparse yang sadar-neuron untuk mengoptimalkan efisiensi aktivasi neuron dan sparsitas komputasi
- Pada satu GPU NVIDIA RTX 4090, mencapai kecepatan generasi token rata-rata 13,20 token/detik dan maksimum 29,08 token/detik di berbagai LLM (termasuk OPT-175B)
- Ini hanya 18% lebih rendah daripada yang dicapai GPU A100 kelas server papan atas
- Dengan tetap mempertahankan akurasi model, performanya jauh melampaui
llama.cpp hingga 11,69 kali lipat
1 komentar
4090 memang termasuk GPU konsumen sih wkwk.....