- Versi fork yang memungkinkan menjalankan LLaMA-13B milik Meta hanya dengan 24 GiB RAM
- Artinya, bisa dijalankan hanya dengan satu RTX4090/3090
- Secara teori, LLaMA-65B dapat dijalankan dengan satu A100 80GB
- Perubahan
- Menghapus struktur pemrosesan paralel
- Mengkuantisasi bobot pada mesin host
- Memuat bobot secara bertahap untuk mencegah masalah memori
- Menggunakan
bitsandbytes dan tqdm
- Pengaturan penalti pengulangan (default 1.15)
- Pada mesin Ubuntu dengan RTX4090 + 64GB, memuat dan mengkuantisasi model memerlukan sekitar 25 detik
Belum ada komentar.