16 poin oleh xguru 2023-03-13 | 1 komentar | Bagikan ke WhatsApp
  • Bertujuan menjalankan model LLaMA yang dikuantisasi 4-bit di MacBook
  • Implementasi C/C++ murni tanpa dependensi
  • Dioptimalkan untuk framework Arm Neon/Accelerate (Apple Silicon)
  • Mendukung AVX2 untuk x86
  • Presisi campuran F16/F32
  • Mendukung quantization 4-bit
  • Berjalan di CPU
  • Saat ini hanya mendukung Mac/Linux. Dukungan Windows akan hadir

1 komentar

 
laeyoung 2023-03-14

Saya mencoba menjalankan model 7B, dan ternyata berjalan lebih baik dari yang saya kira.