- Model bahasa terbuka terbesar dengan 180 miliar parameter
- Di antara model terbuka, menempati peringkat 1 di leaderboard. Melampaui Llama 2 70B dan GPT-3.5 serta bersaing dengan PaLM-2
- Dilatih dengan 3.5T token menggunakan dataset RefinedWeb milik TII (sebagian besar berbahasa Inggris)
- 2,5 kali lebih besar daripada Llama 2 dan dilatih dengan daya komputasi lebih dari 4 kali lipat (menggunakan 4096 GPU di Amazon SageMaker)
- Falcon 180B dapat digunakan secara komersial, tetapi hanya diizinkan dalam ketentuan yang sangat terbatas, kecuali untuk "penggunaan hosting". Wajib memeriksa lisensinya
- Kebutuhan perangkat keras
- Full fine-tuning: memori 5120GB, 8x 8x A100 80GB
- LoRA with ZeRO-3: 1280GB, 2x 8x A100 80GB
- QLoRA: 160GB, 2x A100 80GB
- Inferensi BF16/FP16: 640GB, 8x A100 80GB
- Inferensi GPTQ/int4: 320GB, 8x A100 40GB
1 komentar
Ukurannya benar-benar luar biasa. Belum lagi kebutuhan hardwarenya juga...