Kecepatan pemuatan bobot model di Llama.cpp meningkat 10~100 kali

xguru · 2023-04-03T10:03:01+09:00

Perubahan format file memungkinkan penggunaan mmap() tanpa read(), sehingga kecepatan pemuatan bobot meningkat 10~100 kali Kini juga mendukung 7B dalam satu file serta 13B dalam banyak file, dan kode pemuatannya menjadi jauh lebih sederhana Selain itu, perubahan ini membuat tensor disejajarkan pada batas 32 byte, sehingga dapat diharapkan peningkatan performa tambahan pada prosesor tertentu

(github.com/ggerganov)

13 poin oleh xguru 2023-04-03 | 1 komentar | Bagikan ke WhatsApp

Perubahan format file memungkinkan penggunaan mmap() tanpa read(), sehingga kecepatan pemuatan bobot meningkat 10~100 kali
Kini juga mendukung 7B dalam satu file serta 13B dalam banyak file, dan kode pemuatannya menjadi jauh lebih sederhana
Selain itu, perubahan ini membuat tensor disejajarkan pada batas 32 byte, sehingga dapat diharapkan peningkatan performa tambahan pada prosesor tertentu

1 komentar

xguru 2023-04-03

LLaMA - LLM 65 miliar parameter yang dirilis oleh Meta
llama.cpp - Menjalankan inferensi model LLaMA milik Facebook dengan C/C++ murni

Kecepatan pemuatan bobot model di Llama.cpp meningkat 10~100 kali

Bacaan terkait

1 komentar