- Dirilis dalam 4 ukuran: 7B, 13B, 33B, dan 65B
- Meskipun berukuran jauh lebih kecil, model ini efisien dan dapat dibandingkan dengan model yang lebih besar berkat peningkatan pelatihan data dan fine-tuning
- 33B/65B dilatih dengan 1,4 triliun token (7B dengan 1 triliun)
- "Model 13B melampaui GPT-3 175B, dan 65B mampu bersaing dengan Chinchilla70B serta PaLM-540B yang jauh lebih besar"
- Hanya dapat digunakan untuk tujuan nonkomersial seperti riset kecerdasan buatan (perlu mengajukan permohonan dan mendapat persetujuan)
Belum ada komentar.