11 poin oleh GN⁺ 2023-09-28 | 1 komentar | Bagikan ke WhatsApp
  • Model bahasa paling kuat sejauh ini
  • Model dengan 7.3B parameter, mengungguli Llama 2 13B di semua benchmark, dan melampaui Llama 1 34B di banyak benchmark
  • Menggunakan Grouped-query attention (GQA) untuk inferensi yang lebih cepat dan Sliding Window Attention (SWA) untuk menangani sekuens yang lebih panjang dengan biaya yang lebih rendah
  • Berlisensi Apache 2.0, dapat digunakan tanpa batasan
  • Dapat dideploy di cloud mana pun (AWS/GCP/Azure) menggunakan server inferensi vLLM dan skypilot, serta dapat digunakan juga di HuggingFace
  • Mudah di-fine-tune, dan model yang di-fine-tune untuk chat melampaui Llama 2 13B Chat

1 komentar

 
GN⁺ 2023-09-28
Opini Hacker News
  • Mistral, tidak seperti Meta dan DeciLM, adalah perusahaan pertama yang memberikan lisensi Apache untuk model di kelas ini.
  • Model ini berjalan dengan baik di MacBook Air M1 dan dapat dibandingkan dengan GPT3.5.
  • Ada pertanyaan tentang kemungkinan penggunaan "API pemanggilan fungsi" untuk menangani data terstruktur seperti JSON.
  • Muncul kekhawatiran tentang dataset yang digunakan untuk melatih model dan kemungkinan kebocoran benchmark yang dapat menggelembungkan hasil.
  • Pengumuman model dilakukan melalui URI torrent tracker di Twitter.
  • Dalam pengujian alat bantu pemrograman untuk LLM, Mistral tidak berkinerja sebaik CodeLlama dan GPT4.
  • Model ini berfungsi di FreeChat pada macOS karena didukung oleh llama.cpp.
  • Ada pertanyaan mengapa proyek tampak menstandarkan ukuran parameter tertentu dalam kelompok besar seperti model 7B.
  • Ada permintaan untuk detail tentang pelatihan model, data yang menjadi dasarnya, dan di mana model itu dilatih.
  • Ada permintaan untuk pengujian terhadap kontaminasi benchmark dalam set pelatihan.