Kecepatan pemuatan bobot model di Llama.cpp meningkat 10~100 kali
(github.com/ggerganov)- Perubahan format file memungkinkan penggunaan
mmap()tanparead(), sehingga kecepatan pemuatan bobot meningkat 10~100 kali - Kini juga mendukung 7B dalam satu file serta 13B dalam banyak file, dan kode pemuatannya menjadi jauh lebih sederhana
- Selain itu, perubahan ini membuat tensor disejajarkan pada batas 32 byte, sehingga dapat diharapkan peningkatan performa tambahan pada prosesor tertentu
1 komentar
LLaMA - LLM 65 miliar parameter yang dirilis oleh Meta
llama.cpp - Menjalankan inferensi model LLaMA milik Facebook dengan C/C++ murni