Open-LLaMa - Pipeline pelatihan lengkap untuk membuat LLM

xguru · 2023-05-16T10:02:01+09:00

Sumber terbuka yang menyusun seluruh pipeline mulai dari pembuatan dataset, tokenisasi, prompt tuning, LoRA, hingga RLHF Model pra-pelatihan Open-LLama-V2-pretrain juga dirilis di Hugging Face Menurut metode evaluasi FastChat, performanya mencapai sekitar 89% dibanding GPT-3.5 (untuk pertanyaan berbahasa Mandarin) Kecepatan pelatihan 3620 token/s, sedikit lebih cepat daripada LLama original yang 3370 (model 7B) Jika dilatih dengan 500B token, diperlukan 38300 jam GPU Di Google Cloud, penggunaan 8 GPU A100-80G Spot selama satu jam seharga 12,6 dolar Total biaya 60300 dolar

(github.com/s-JoL)

8 poin oleh xguru 2023-05-16 | 2 komentar | Bagikan ke WhatsApp

Sumber terbuka yang menyusun seluruh pipeline mulai dari pembuatan dataset, tokenisasi, prompt tuning, LoRA, hingga RLHF
Model pra-pelatihan Open-LLama-V2-pretrain juga dirilis di Hugging Face
Menurut metode evaluasi FastChat, performanya mencapai sekitar 89% dibanding GPT-3.5 (untuk pertanyaan berbahasa Mandarin)
Kecepatan pelatihan 3620 token/s, sedikit lebih cepat daripada LLama original yang 3370 (model 7B)
Jika dilatih dengan 500B token, diperlukan 38300 jam GPU
- Di Google Cloud, penggunaan 8 GPU A100-80G Spot selama satu jam seharga 12,6 dolar
- Total biaya 60300 dolar

2 komentar

zer0ne 2023-05-16

Saya penasaran, kalau dilatih dengan GPU konsumen umum seperti 4090, kira-kira butuh waktu berapa lama ya.

xguru 2023-05-16

Namanya terasa familiar..? Jadi saya cari, ternyata
OpenLLaMA - replika terbuka dari LLaMA
bedanya dengan yang ini hanya satu tanda hubung pada namanya, tetapi isinya adalah proyek yang sama sekali berbeda.

Open-LLaMa - Pipeline pelatihan lengkap untuk membuat LLM

Bacaan terkait

2 komentar