SlowLlama - Fine-tuning Llama2-70b dan CodeLlama di M1/M2 tanpa kuantisasi
(github.com/okuvshynov)- Fine-tuning model seperti Llama2-70B di Apple M1/M2 dan GPU nVidia kelas konsumen
- Alih-alih menggunakan kuantisasi (quantization), metode ini meng-offload sebagian model ke SSD atau memori utama pada forward/backward pass
- Versi saat ini membatasi pembaruan ke set parameter yang lebih kecil dengan menggunakan LoRA
- Versi pertama juga mendukung fine-tuning penuh, tetapi kini sudah dihapus
Belum ada komentar.