llama.cpp - Menjalankan inferensi model LLaMA milik Facebook dalam C/C++ murni
(github.com/ggerganov)- Bertujuan menjalankan model LLaMA yang dikuantisasi 4-bit di MacBook
- Implementasi C/C++ murni tanpa dependensi
- Dioptimalkan untuk framework Arm Neon/Accelerate (Apple Silicon)
- Mendukung AVX2 untuk x86
- Presisi campuran F16/F32
- Mendukung quantization 4-bit
- Berjalan di CPU
- Saat ini hanya mendukung Mac/Linux. Dukungan Windows akan hadir
1 komentar
Saya mencoba menjalankan model 7B, dan ternyata berjalan lebih baik dari yang saya kira.