Penambahan akselerasi CUDA GPU penuh ke llama.cpp

xguru · 2023-06-14T10:46:02+09:00

PR yang menambahkan akselerasi GPU ke semua tensor ggml yang masih tersisa Pada RTX 3090, pemrosesan prompt menjadi 2x lebih cepat, dan pembuatan token dipercepat hingga 1,3~1,8x Pada 4090+i9, untuk model 7B q4, menghasilkan 109 token per detik

(github.com/ggerganov)

8 poin oleh xguru 2023-06-14 | Belum ada komentar. | Bagikan ke WhatsApp

PR yang menambahkan akselerasi GPU ke semua tensor ggml yang masih tersisa
Pada RTX 3090, pemrosesan prompt menjadi 2x lebih cepat, dan pembuatan token dipercepat hingga 1,3~1,8x
Pada 4090+i9, untuk model 7B q4, menghasilkan 109 token per detik

Penambahan akselerasi CUDA GPU penuh ke llama.cpp

Bacaan terkait

Belum ada komentar.