Penambahan akselerasi CUDA GPU penuh ke llama.cpp
(github.com/ggerganov)- PR yang menambahkan akselerasi GPU ke semua tensor ggml yang masih tersisa
- Pada RTX 3090, pemrosesan prompt menjadi 2x lebih cepat, dan pembuatan token dipercepat hingga 1,3~1,8x
- Pada 4090+i9, untuk model 7B q4, menghasilkan 109 token per detik
Belum ada komentar.