- Sumber terbuka yang menyusun seluruh pipeline mulai dari pembuatan dataset, tokenisasi, prompt tuning, LoRA, hingga RLHF
- Model pra-pelatihan Open-LLama-V2-pretrain juga dirilis di Hugging Face
- Menurut metode evaluasi FastChat, performanya mencapai sekitar 89% dibanding GPT-3.5 (untuk pertanyaan berbahasa Mandarin)
- Kecepatan pelatihan 3620 token/s, sedikit lebih cepat daripada LLama original yang 3370 (model 7B)
- Jika dilatih dengan 500B token, diperlukan 38300 jam GPU
- Di Google Cloud, penggunaan 8 GPU A100-80G Spot selama satu jam seharga 12,6 dolar
- Total biaya 60300 dolar
2 komentar
Saya penasaran, kalau dilatih dengan GPU konsumen umum seperti 4090, kira-kira butuh waktu berapa lama ya.
Namanya terasa familiar..? Jadi saya cari, ternyata
OpenLLaMA - replika terbuka dari LLaMA
bedanya dengan yang ini hanya satu tanda hubung pada namanya, tetapi isinya adalah proyek yang sama sekali berbeda.