- "High-quality Sparse Mixture of Experts Model (SMoE, model ahli campuran jarang berkualitas tinggi)"
- Melampaui Llama 2 70B di sebagian besar benchmark, dengan inferensi 6x lebih cepat
- Menunjukkan performa yang setara atau lebih baik daripada GPT 3.5 di sebagian besar benchmark standar
- Model open-weight paling kuat dengan lisensi permisif, serta model terbaik dari sisi biaya/performa
- Mendukung konteks 32k token
- Mendukung pemrosesan bahasa Inggris/Prancis/Italia/Jerman/Spanyol
- Menunjukkan performa kuat dalam pembuatan kode
- Dapat di-fine-tune menjadi model instruction-following yang meraih skor 8.3 di MT-Bench
- MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)
Mendorong batas model terbuka dengan memanfaatkan arsitektur jarang
- Mixtral adalah jaringan ahli jarang dan merupakan model decoder-only
- Blok feedforward memilih dari 8 kelompok parameter yang berbeda; untuk setiap token di setiap layer, jaringan router memilih dua kelompok ahli dan menggabungkan keluarannya
- Teknik ini memungkinkan peningkatan jumlah parameter model sambil tetap mengendalikan biaya dan latensi; Mixtral memiliki total 46.7B parameter, tetapi hanya menggunakan 12.9B parameter per token
Performa
- Dibandingkan dengan model Llama 2 dan model dasar GPT3.5, Mixtral menunjukkan performa yang setara atau lebih baik di sebagian besar benchmark.
- Dibandingkan dengan model Llama 2 70B, Mixtral memberikan jawaban yang lebih jujur (73.9% vs 50.2% pada benchmark TruthfulQA) dan menunjukkan bias yang lebih rendah pada benchmark BBQ.
- Mixtral sangat mahir dalam bahasa Prancis, Jerman, Spanyol, Italia, dan Inggris.
Model yang mengikuti instruksi
- Mixtral 8x7B Instruct melalui supervised fine-tuning dan Direct Preference Optimization (DPO) untuk mengoptimalkan performa mengikuti instruksi.
- Dengan skor 8.30 di MT-Bench, model ini menjadi model open source terbaik dengan performa setara GPT3.5.
Deployment dengan stack distribusi open source Mixtral
- Agar komunitas dapat menjalankan Mixtral dengan stack open source lengkap, perubahan telah diajukan ke proyek vLLM.
- Saat ini Mistral AI menggunakan Mixtral 8x7B di balik endpoint mistral-small, dan tersedia dalam versi beta
- Pendaftaran tersedia untuk akses awal ke semua endpoint generasi dan embedding
2 komentar
Seperti yang juga disebutkan di komentar bawah, saat pertama kali melihat 8x7B, saya sempat berpikir, jadi total jumlah parameternya 56B ya?
Opini Hacker News
Pendapat Andrej Karpathy:
Ketersediaan model di HuggingFace:
Permintaan penjelasan untuk software engineer:
Reaksi terhadap ukuran Mixtral 8x7B:
Pandangan tentang masa depan AI:
Pertanyaan tentang cara kerja serta kelebihan dan kekurangan MoE:
Kebingungan tentang parameter model:
Penjelasan tentang pendekatan Mistral:
Kemampuan bahasa Mixtral 8x7B:
Permintaan informasi model dan bobot:
Pertanyaan tentang daya saing pasar: