- Library inferensi yang dirancang untuk menjalankan LLM lokal di GPU seperti 3090/4090
- Ini adalah rilis awal dan kodenya masih dalam tahap pengujian, dengan beberapa fitur utama yang belum diimplementasikan
- Dibandingkan V1, ExLlamaV2 memiliki kernel yang lebih cepat dan lebih baik, basis kode yang lebih rapi dan beragam, serta mendukung format kuantisasi baru
- Bergantung pada ekstensi Torch C++ untuk fungsi CUDA, yang dikompilasi saat runtime. Saat library pertama kali digunakan, proses ini memerlukan 10-20 detik, tetapi ekstensi tersebut akan di-cache untuk penggunaan berikutnya
- Mendukung model GPTQ 4-bit yang sama seperti V1, tetapi juga mendukung format baru "EXL2" yang dapat mencapai bitrate rata-rata antara 2-bit hingga 8-bit dengan mencampur tingkat kuantisasi di dalam model
- Pemilihan parameter untuk kuantisasi dilakukan secara otomatis, dan disediakan skrip untuk mengkuantisasi model
- Disebutkan juga bahwa beberapa model yang dikuantisasi dengan EXL2 telah diunggah ke HuggingFace agar pengguna bisa mencobanya
- Rencana ke depan mencakup paket PyPi dengan ekstensi yang sudah dibangun sebelumnya, dukungan LoRA, contoh web UI, web server, dan lebih banyak sampler
1 komentar
Opini Hacker News