Mistral AI merilis model Mixtral 8x7B yang melampaui Llama 2 70B

(mistral.ai)

12 poin oleh GN⁺ 2023-12-12 | 2 komentar | Bagikan ke WhatsApp

"High-quality Sparse Mixture of Experts Model (SMoE, model ahli campuran jarang berkualitas tinggi)"
Melampaui Llama 2 70B di sebagian besar benchmark, dengan inferensi 6x lebih cepat
Menunjukkan performa yang setara atau lebih baik daripada GPT 3.5 di sebagian besar benchmark standar
Model open-weight paling kuat dengan lisensi permisif, serta model terbaik dari sisi biaya/performa
Mendukung konteks 32k token
Mendukung pemrosesan bahasa Inggris/Prancis/Italia/Jerman/Spanyol
Menunjukkan performa kuat dalam pembuatan kode
Dapat di-fine-tune menjadi model instruction-following yang meraih skor 8.3 di MT-Bench
MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)

Mendorong batas model terbuka dengan memanfaatkan arsitektur jarang

Mixtral adalah jaringan ahli jarang dan merupakan model decoder-only
Blok feedforward memilih dari 8 kelompok parameter yang berbeda; untuk setiap token di setiap layer, jaringan router memilih dua kelompok ahli dan menggabungkan keluarannya
Teknik ini memungkinkan peningkatan jumlah parameter model sambil tetap mengendalikan biaya dan latensi; Mixtral memiliki total 46.7B parameter, tetapi hanya menggunakan 12.9B parameter per token

Performa

Dibandingkan dengan model Llama 2 dan model dasar GPT3.5, Mixtral menunjukkan performa yang setara atau lebih baik di sebagian besar benchmark.
Dibandingkan dengan model Llama 2 70B, Mixtral memberikan jawaban yang lebih jujur (73.9% vs 50.2% pada benchmark TruthfulQA) dan menunjukkan bias yang lebih rendah pada benchmark BBQ.
Mixtral sangat mahir dalam bahasa Prancis, Jerman, Spanyol, Italia, dan Inggris.

Model yang mengikuti instruksi

Mixtral 8x7B Instruct melalui supervised fine-tuning dan Direct Preference Optimization (DPO) untuk mengoptimalkan performa mengikuti instruksi.
Dengan skor 8.30 di MT-Bench, model ini menjadi model open source terbaik dengan performa setara GPT3.5.

Deployment dengan stack distribusi open source Mixtral

Agar komunitas dapat menjalankan Mixtral dengan stack open source lengkap, perubahan telah diajukan ke proyek vLLM.
Saat ini Mistral AI menggunakan Mixtral 8x7B di balik endpoint mistral-small, dan tersedia dalam versi beta
Pendaftaran tersedia untuk akses awal ke semua endpoint generasi dan embedding

2 komentar

cosine20 2023-12-12

Seperti yang juga disebutkan di komentar bawah, saat pertama kali melihat 8x7B, saya sempat berpikir, jadi total jumlah parameternya 56B ya?

GN⁺ 2023-12-12

Opini Hacker News

Pendapat Andrej Karpathy:
- Postingan resmi tentang Mixtral 8x7B dan rilis kode inferensi vLLM
- Penjelasan MoE (Mixture of Experts) dari HuggingFace bermanfaat
- Mencapai performa model 70B dengan kecepatan inferensi model dense 12.9B
- Respons positif terhadap penggunaan istilah "open weights"
- Menunjukkan bahwa nama "8x7B" berpotensi menyesatkan
- Menyebut adanya kebingungan tentang cara tiap token dan layer memilih 2 ahli dari 8 ahli
- Pengenalan model Mistral-medium
Ketersediaan model di HuggingFace:
- Model Mixtral tersedia dari Mistralai dan TheBloke
Permintaan penjelasan untuk software engineer:
- Perlu memahami bagaimana Mixture of Experts bekerja
Reaksi terhadap ukuran Mixtral 8x7B:
- Mengungkapkan ketertarikan bahwa 4,5 miliar parameter dianggap sebagai model "small"
Pandangan tentang masa depan AI:
- Pandangan positif bahwa MoE akan menjadi masa depan AI
Pertanyaan tentang cara kerja serta kelebihan dan kekurangan MoE:
- Perlu penjelasan tentang keunggulan MoE dibanding model tradisional
Kebingungan tentang parameter model:
- Mengungkapkan kebingungan tentang nama "8x7B", jumlah parameter sebenarnya, dan parameter yang digunakan saat menghasilkan token
Penjelasan tentang pendekatan Mistral:
- CEO menyebut bahwa Mistral tidak menyensor model dan mengejar akses yang bebas
Kemampuan bahasa Mixtral 8x7B:
- Sangat baik dalam bahasa Prancis, Jerman, Spanyol, Italia, dan Inggris
Permintaan informasi model dan bobot:
- Meminta tautan untuk model dan bobotnya
Pertanyaan tentang daya saing pasar:
- Memiliki model yang melampaui GPT 3.5, tetapi mempertanyakan peluangnya dalam persaingan dengan OpenAI/Google serta prospek masa depannya