7 poin oleh xguru 2023-02-28 | Belum ada komentar. | Bagikan ke WhatsApp
  • Dirilis dalam 4 ukuran: 7B, 13B, 33B, dan 65B
  • Meskipun berukuran jauh lebih kecil, model ini efisien dan dapat dibandingkan dengan model yang lebih besar berkat peningkatan pelatihan data dan fine-tuning
  • 33B/65B dilatih dengan 1,4 triliun token (7B dengan 1 triliun)
  • "Model 13B melampaui GPT-3 175B, dan 65B mampu bersaing dengan Chinchilla70B serta PaLM-540B yang jauh lebih besar"
  • Hanya dapat digunakan untuk tujuan nonkomersial seperti riset kecerdasan buatan (perlu mengajukan permohonan dan mendapat persetujuan)

Belum ada komentar.

Belum ada komentar.