8 poin oleh xguru 2023-05-16 | 2 komentar | Bagikan ke WhatsApp
  • Sumber terbuka yang menyusun seluruh pipeline mulai dari pembuatan dataset, tokenisasi, prompt tuning, LoRA, hingga RLHF
  • Model pra-pelatihan Open-LLama-V2-pretrain juga dirilis di Hugging Face
  • Menurut metode evaluasi FastChat, performanya mencapai sekitar 89% dibanding GPT-3.5 (untuk pertanyaan berbahasa Mandarin)
  • Kecepatan pelatihan 3620 token/s, sedikit lebih cepat daripada LLama original yang 3370 (model 7B)
  • Jika dilatih dengan 500B token, diperlukan 38300 jam GPU
    • Di Google Cloud, penggunaan 8 GPU A100-80G Spot selama satu jam seharga 12,6 dolar
    • Total biaya 60300 dolar

2 komentar

 
zer0ne 2023-05-16

Saya penasaran, kalau dilatih dengan GPU konsumen umum seperti 4090, kira-kira butuh waktu berapa lama ya.

 
xguru 2023-05-16

Namanya terasa familiar..? Jadi saya cari, ternyata
OpenLLaMA - replika terbuka dari LLaMA
bedanya dengan yang ini hanya satu tanda hubung pada namanya, tetapi isinya adalah proyek yang sama sekali berbeda.