8 poin oleh xguru 2023-03-10 | Belum ada komentar. | Bagikan ke WhatsApp
  • Versi fork yang memungkinkan menjalankan LLaMA-13B milik Meta hanya dengan 24 GiB RAM
    • Artinya, bisa dijalankan hanya dengan satu RTX4090/3090
  • Secara teori, LLaMA-65B dapat dijalankan dengan satu A100 80GB
  • Perubahan
    • Menghapus struktur pemrosesan paralel
    • Mengkuantisasi bobot pada mesin host
    • Memuat bobot secara bertahap untuk mencegah masalah memori
    • Menggunakan bitsandbytes dan tqdm
    • Pengaturan penalti pengulangan (default 1.15)
  • Pada mesin Ubuntu dengan RTX4090 + 64GB, memuat dan mengkuantisasi model memerlukan sekitar 25 detik

Belum ada komentar.

Belum ada komentar.