Model Falcon 180B Dirilis

xguru · 2023-09-07T10:31:01+09:00

Model bahasa terbuka terbesar dengan 180 miliar parameter Di antara model terbuka, menempati peringkat 1 di leaderboard. Melampaui Llama 2 70B dan GPT-3.5 serta bersaing dengan PaLM-2 Dilatih dengan 3.5T token menggunakan dataset RefinedWeb milik TII (sebagian besar berbahasa Inggris) 2,5 kali lebih besar daripada Llama 2 dan dilatih dengan daya komputasi lebih dari 4 kali lipat (menggunakan 4096 GPU di Amazon SageMaker) Falcon 180B dapat digunakan secara komersial, tetapi hanya diizinkan dalam ketentuan yang sangat terbatas, kecuali untuk "penggunaan hosting". Wajib memeriksa lisensinya Kebutuhan perangkat keras Full fine-tuning: memori 5120GB, 8x 8x A100 80GB LoRA with ZeRO-3: 1280GB, 2x 8x A100 80GB QLoRA: 160GB, 2x A100 80GB Inferensi BF16/FP16: 640GB, 8x A100 80GB Inferensi GPTQ/int4: 320GB, 8x A100 40GB

(huggingface.co)

7 poin oleh xguru 2023-09-07 | 1 komentar | Bagikan ke WhatsApp

Model bahasa terbuka terbesar dengan 180 miliar parameter
Di antara model terbuka, menempati peringkat 1 di leaderboard. Melampaui Llama 2 70B dan GPT-3.5 serta bersaing dengan PaLM-2
Dilatih dengan 3.5T token menggunakan dataset RefinedWeb milik TII (sebagian besar berbahasa Inggris)
- 2,5 kali lebih besar daripada Llama 2 dan dilatih dengan daya komputasi lebih dari 4 kali lipat (menggunakan 4096 GPU di Amazon SageMaker)
Falcon 180B dapat digunakan secara komersial, tetapi hanya diizinkan dalam ketentuan yang sangat terbatas, kecuali untuk "penggunaan hosting". Wajib memeriksa lisensinya
Kebutuhan perangkat keras
- Full fine-tuning: memori 5120GB, 8x 8x A100 80GB
- LoRA with ZeRO-3: 1280GB, 2x 8x A100 80GB
- QLoRA: 160GB, 2x A100 80GB
- Inferensi BF16/FP16: 640GB, 8x A100 80GB
- Inferensi GPTQ/int4: 320GB, 8x A100 40GB

1 komentar

kuroneko 2023-09-07

Ukurannya benar-benar luar biasa. Belum lagi kebutuhan hardwarenya juga...

Model Falcon 180B Dirilis

Bacaan terkait

1 komentar