12 poin oleh GN⁺ 2023-12-12 | 2 komentar | Bagikan ke WhatsApp
  • "High-quality Sparse Mixture of Experts Model (SMoE, model ahli campuran jarang berkualitas tinggi)"
  • Melampaui Llama 2 70B di sebagian besar benchmark, dengan inferensi 6x lebih cepat
  • Menunjukkan performa yang setara atau lebih baik daripada GPT 3.5 di sebagian besar benchmark standar
  • Model open-weight paling kuat dengan lisensi permisif, serta model terbaik dari sisi biaya/performa
  • Mendukung konteks 32k token
  • Mendukung pemrosesan bahasa Inggris/Prancis/Italia/Jerman/Spanyol
  • Menunjukkan performa kuat dalam pembuatan kode
  • Dapat di-fine-tune menjadi model instruction-following yang meraih skor 8.3 di MT-Bench
  • MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)

Mendorong batas model terbuka dengan memanfaatkan arsitektur jarang

  • Mixtral adalah jaringan ahli jarang dan merupakan model decoder-only
  • Blok feedforward memilih dari 8 kelompok parameter yang berbeda; untuk setiap token di setiap layer, jaringan router memilih dua kelompok ahli dan menggabungkan keluarannya
  • Teknik ini memungkinkan peningkatan jumlah parameter model sambil tetap mengendalikan biaya dan latensi; Mixtral memiliki total 46.7B parameter, tetapi hanya menggunakan 12.9B parameter per token

Performa

  • Dibandingkan dengan model Llama 2 dan model dasar GPT3.5, Mixtral menunjukkan performa yang setara atau lebih baik di sebagian besar benchmark.
  • Dibandingkan dengan model Llama 2 70B, Mixtral memberikan jawaban yang lebih jujur (73.9% vs 50.2% pada benchmark TruthfulQA) dan menunjukkan bias yang lebih rendah pada benchmark BBQ.
  • Mixtral sangat mahir dalam bahasa Prancis, Jerman, Spanyol, Italia, dan Inggris.

Model yang mengikuti instruksi

  • Mixtral 8x7B Instruct melalui supervised fine-tuning dan Direct Preference Optimization (DPO) untuk mengoptimalkan performa mengikuti instruksi.
  • Dengan skor 8.30 di MT-Bench, model ini menjadi model open source terbaik dengan performa setara GPT3.5.

Deployment dengan stack distribusi open source Mixtral

  • Agar komunitas dapat menjalankan Mixtral dengan stack open source lengkap, perubahan telah diajukan ke proyek vLLM.
  • Saat ini Mistral AI menggunakan Mixtral 8x7B di balik endpoint mistral-small, dan tersedia dalam versi beta
  • Pendaftaran tersedia untuk akses awal ke semua endpoint generasi dan embedding

2 komentar

 
cosine20 2023-12-12

Seperti yang juga disebutkan di komentar bawah, saat pertama kali melihat 8x7B, saya sempat berpikir, jadi total jumlah parameternya 56B ya?

 
GN⁺ 2023-12-12
Opini Hacker News
  • Pendapat Andrej Karpathy:

    • Postingan resmi tentang Mixtral 8x7B dan rilis kode inferensi vLLM
    • Penjelasan MoE (Mixture of Experts) dari HuggingFace bermanfaat
    • Mencapai performa model 70B dengan kecepatan inferensi model dense 12.9B
    • Respons positif terhadap penggunaan istilah "open weights"
    • Menunjukkan bahwa nama "8x7B" berpotensi menyesatkan
    • Menyebut adanya kebingungan tentang cara tiap token dan layer memilih 2 ahli dari 8 ahli
    • Pengenalan model Mistral-medium
  • Ketersediaan model di HuggingFace:

    • Model Mixtral tersedia dari Mistralai dan TheBloke
  • Permintaan penjelasan untuk software engineer:

    • Perlu memahami bagaimana Mixture of Experts bekerja
  • Reaksi terhadap ukuran Mixtral 8x7B:

    • Mengungkapkan ketertarikan bahwa 4,5 miliar parameter dianggap sebagai model "small"
  • Pandangan tentang masa depan AI:

    • Pandangan positif bahwa MoE akan menjadi masa depan AI
  • Pertanyaan tentang cara kerja serta kelebihan dan kekurangan MoE:

    • Perlu penjelasan tentang keunggulan MoE dibanding model tradisional
  • Kebingungan tentang parameter model:

    • Mengungkapkan kebingungan tentang nama "8x7B", jumlah parameter sebenarnya, dan parameter yang digunakan saat menghasilkan token
  • Penjelasan tentang pendekatan Mistral:

    • CEO menyebut bahwa Mistral tidak menyensor model dan mengejar akses yang bebas
  • Kemampuan bahasa Mixtral 8x7B:

    • Sangat baik dalam bahasa Prancis, Jerman, Spanyol, Italia, dan Inggris
  • Permintaan informasi model dan bobot:

    • Meminta tautan untuk model dan bobotnya
  • Pertanyaan tentang daya saing pasar:

    • Memiliki model yang melampaui GPT 3.5, tetapi mempertanyakan peluangnya dalam persaingan dengan OpenAI/Google serta prospek masa depannya