Mistral 7B

(mistral.ai)

11 poin oleh GN⁺ 2023-09-28 | 1 komentar | Bagikan ke WhatsApp

Model bahasa paling kuat sejauh ini
Model dengan 7.3B parameter, mengungguli Llama 2 13B di semua benchmark, dan melampaui Llama 1 34B di banyak benchmark
Menggunakan Grouped-query attention (GQA) untuk inferensi yang lebih cepat dan Sliding Window Attention (SWA) untuk menangani sekuens yang lebih panjang dengan biaya yang lebih rendah
Berlisensi Apache 2.0, dapat digunakan tanpa batasan
Dapat dideploy di cloud mana pun (AWS/GCP/Azure) menggunakan server inferensi vLLM dan skypilot, serta dapat digunakan juga di HuggingFace
Mudah di-fine-tune, dan model yang di-fine-tune untuk chat melampaui Llama 2 13B Chat

1 komentar

GN⁺ 2023-09-28

Mistral, tidak seperti Meta dan DeciLM, adalah perusahaan pertama yang memberikan lisensi Apache untuk model di kelas ini.
Model ini berjalan dengan baik di MacBook Air M1 dan dapat dibandingkan dengan GPT3.5.
Ada pertanyaan tentang kemungkinan penggunaan "API pemanggilan fungsi" untuk menangani data terstruktur seperti JSON.
Muncul kekhawatiran tentang dataset yang digunakan untuk melatih model dan kemungkinan kebocoran benchmark yang dapat menggelembungkan hasil.
Pengumuman model dilakukan melalui URI torrent tracker di Twitter.
Dalam pengujian alat bantu pemrograman untuk LLM, Mistral tidak berkinerja sebaik CodeLlama dan GPT4.
Model ini berfungsi di FreeChat pada macOS karena didukung oleh llama.cpp.
Ada pertanyaan mengapa proyek tampak menstandarkan ukuran parameter tertentu dalam kelompok besar seperti model 7B.
Ada permintaan untuk detail tentang pelatihan model, data yang menjadi dasarnya, dan di mana model itu dilatih.
Ada permintaan untuk pengujian terhadap kontaminasi benchmark dalam set pelatihan.