7 poin oleh xguru 2023-09-07 | 1 komentar | Bagikan ke WhatsApp
  • Model bahasa terbuka terbesar dengan 180 miliar parameter
  • Di antara model terbuka, menempati peringkat 1 di leaderboard. Melampaui Llama 2 70B dan GPT-3.5 serta bersaing dengan PaLM-2
  • Dilatih dengan 3.5T token menggunakan dataset RefinedWeb milik TII (sebagian besar berbahasa Inggris)
    • 2,5 kali lebih besar daripada Llama 2 dan dilatih dengan daya komputasi lebih dari 4 kali lipat (menggunakan 4096 GPU di Amazon SageMaker)
  • Falcon 180B dapat digunakan secara komersial, tetapi hanya diizinkan dalam ketentuan yang sangat terbatas, kecuali untuk "penggunaan hosting". Wajib memeriksa lisensinya
  • Kebutuhan perangkat keras
    • Full fine-tuning: memori 5120GB, 8x 8x A100 80GB
    • LoRA with ZeRO-3: 1280GB, 2x 8x A100 80GB
    • QLoRA: 160GB, 2x A100 80GB
    • Inferensi BF16/FP16: 640GB, 8x A100 80GB
    • Inferensi GPTQ/int4: 320GB, 8x A100 40GB

1 komentar

 
kuroneko 2023-09-07

Ukurannya benar-benar luar biasa. Belum lagi kebutuhan hardwarenya juga...