- Berkat LLaMA.cpp, yang menulis ulang kode inferensi LLaMA dalam C++ murni, model ini dapat dijalankan di berbagai perangkat keras seperti Pixel 5, MacBook Pro M2, dan Raspberry Pi
- Model besar umumnya memerlukan GPU mahal, jadi bagaimana hal ini bisa terjadi?
- GPU unggul untuk deep learning karena bandwidth memori dan kemampuan komputasinya yang besar, tetapi bandwidth memori sering kali menjadi bottleneck dalam inferensi
- Ini karena untuk komputasi nyata, data harus dipindahkan dari memori HBM (RAM) ke memori on-chip
- Quantization penting dalam penggunaan RAM untuk bobot LLaMA
- Dengan menurunkan presisi, jumlah memori yang dibutuhkan untuk menyimpan model dapat dikurangi secara drastis
- Melalui quantization, kebutuhan memori untuk menyimpan model berkurang sehingga model bisa muat di memori GPU pusat data standar maupun GPU konsumen kelas atas
- Bandwidth memori adalah faktor pembatas dalam hampir semua pekerjaan yang terkait dengan sampling pada transformer
- Jika kebutuhan memori dikurangi dengan metode seperti quantization, penyajian model menjadi jauh lebih mudah
- Ini juga menjadi alasan lain untuk distillation atau "melatih model yang lebih kecil lebih lama"
3 komentar
Saya mencoba memuat llama2 dengan LlamaCpp di mesin lokal dan menguji embedding.
https://breezymind.com/llamacpp-embedding
Komentar pertama di HN cukup membantu
Komentar Hacker News