16 poin oleh xguru 2023-12-21 | 1 komentar | Bagikan ke WhatsApp
  • Saat menjalankan Falcon(ReLU)-40B-FP16 pada RTX 4090(24G), performanya 11 kali lebih cepat dibanding llama.cpp
  • Mesin inferensi LLM hibrida CPU/GPU yang memanfaatkan activation locality pada perangkat
    • Membedakan sebagian hot neuron yang aktif secara konsisten dan mayoritas cold neuron yang berubah tergantung input
    • Hot neuron dimuat lebih dulu ke GPU agar dapat diaktifkan dengan cepat, sementara cold neuron dihitung di CPU sehingga secara signifikan mengurangi kebutuhan memori GPU dan transfer data CPU-GPU
  • Mengintegrasikan prediktor adaptif dan operator sparse yang sadar-neuron untuk mengoptimalkan efisiensi aktivasi neuron dan sparsitas komputasi
  • Pada satu GPU NVIDIA RTX 4090, mencapai kecepatan generasi token rata-rata 13,20 token/detik dan maksimum 29,08 token/detik di berbagai LLM (termasuk OPT-175B)
    • Ini hanya 18% lebih rendah daripada yang dicapai GPU A100 kelas server papan atas
    • Dengan tetap mempertahankan akurasi model, performanya jauh melampaui llama.cpp hingga 11,69 kali lipat

1 komentar

 
cosine20 2023-12-28

4090 memang termasuk GPU konsumen sih wkwk.....