LLaMA: Edisi INT8

xguru · 2023-03-10T11:02:01+09:00

Versi fork yang memungkinkan menjalankan LLaMA-13B milik Meta hanya dengan 24 GiB RAM Artinya, bisa dijalankan hanya dengan satu RTX4090/3090 Secara teori, LLaMA-65B dapat dijalankan dengan satu A100 80GB Perubahan Menghapus struktur pemrosesan paralel Mengkuantisasi bobot pada mesin host Memuat bobot secara bertahap untuk mencegah masalah memori Menggunakan bitsandbytes dan tqdm Pengaturan penalti pengulangan (default 1.15) Pada mesin Ubuntu dengan RTX4090 + 64GB, memuat dan mengkuantisasi model memerlukan sekitar 25 detik

(github.com/tloen)

8 poin oleh xguru 2023-03-10 | Belum ada komentar. | Bagikan ke WhatsApp

Versi fork yang memungkinkan menjalankan LLaMA-13B milik Meta hanya dengan 24 GiB RAM
- Artinya, bisa dijalankan hanya dengan satu RTX4090/3090
Secara teori, LLaMA-65B dapat dijalankan dengan satu A100 80GB
Perubahan
- Menghapus struktur pemrosesan paralel
- Mengkuantisasi bobot pada mesin host
- Memuat bobot secara bertahap untuk mencegah masalah memori
- Menggunakan bitsandbytes dan tqdm
- Pengaturan penalti pengulangan (default 1.15)
Pada mesin Ubuntu dengan RTX4090 + 64GB, memuat dan mengkuantisasi model memerlukan sekitar 25 detik

LLaMA: Edisi INT8

Bacaan terkait

Belum ada komentar.