llama.cpp - Menjalankan inferensi model LLaMA milik Facebook dalam C/C++ murni

xguru · 2023-03-13T11:26:01+09:00

Bertujuan menjalankan model LLaMA yang dikuantisasi 4-bit di MacBook Implementasi C/C++ murni tanpa dependensi Dioptimalkan untuk framework Arm Neon/Accelerate (Apple Silicon) Mendukung AVX2 untuk x86 Presisi campuran F16/F32 Mendukung quantization 4-bit Berjalan di CPU Saat ini hanya mendukung Mac/Linux. Dukungan Windows akan hadir

(github.com/ggerganov)

16 poin oleh xguru 2023-03-13 | 1 komentar | Bagikan ke WhatsApp

Bertujuan menjalankan model LLaMA yang dikuantisasi 4-bit di MacBook
Implementasi C/C++ murni tanpa dependensi
Dioptimalkan untuk framework Arm Neon/Accelerate (Apple Silicon)
Mendukung AVX2 untuk x86
Presisi campuran F16/F32
Mendukung quantization 4-bit
Berjalan di CPU
Saat ini hanya mendukung Mac/Linux. Dukungan Windows akan hadir

1 komentar

laeyoung 2023-03-14

Saya mencoba menjalankan model 7B, dan ternyata berjalan lebih baik dari yang saya kira.

llama.cpp - Menjalankan inferensi model LLaMA milik Facebook dalam C/C++ murni

Bacaan terkait

1 komentar