- Model bahasa paling kuat sejauh ini
- Model dengan 7.3B parameter, mengungguli Llama 2 13B di semua benchmark, dan melampaui Llama 1 34B di banyak benchmark
- Menggunakan Grouped-query attention (GQA) untuk inferensi yang lebih cepat dan Sliding Window Attention (SWA) untuk menangani sekuens yang lebih panjang dengan biaya yang lebih rendah
- Berlisensi Apache 2.0, dapat digunakan tanpa batasan
- Dapat dideploy di cloud mana pun (AWS/GCP/Azure) menggunakan server inferensi vLLM dan skypilot, serta dapat digunakan juga di HuggingFace
- Mudah di-fine-tune, dan model yang di-fine-tune untuk chat melampaui Llama 2 13B Chat
1 komentar
Opini Hacker News