Pengenalan Mixtral of Experts
- Mixtral 8x7B adalah model bahasa Sparse Mixture of Experts (SMoE).
- Mixtral memiliki arsitektur yang sama dengan Mistral 7B, tetapi setiap layer terdiri dari 8 blok feedforward (expert).
- Untuk setiap token, jaringan router memilih dua expert yang akan memproses status saat ini dan menggabungkan output keduanya.
Performa dan benchmark
- Setiap token dapat mengakses 47B parameter, tetapi saat inferensi hanya menggunakan 13B parameter aktif.
- Mixtral dilatih dengan ukuran konteks 32k token, serta melampaui atau menyamai Llama 2 70B dan GPT-3.5 di semua benchmark yang dievaluasi.
- Khususnya, model ini jauh melampaui Llama 2 70B pada benchmark matematika, pembuatan kode, dan multibahasa.
Fine-tuning model dan lisensi
- Mixtral 8x7B - Instruct, yaitu model yang di-fine-tuning agar mengikuti instruksi, melampaui GPT-3.5 Turbo, Claude-2.1, Gemini Pro, dan Llama 2 70B - chat pada benchmark manusia.
- Baik model dasar maupun model instruct dirilis di bawah lisensi Apache 2.0.
Opini GN⁺
- Mixtral 8x7B dinilai menunjukkan performa yang sangat unggul dibandingkan model bahasa yang sudah ada. Ini merupakan indikator penting dari kemajuan di bidang pemrosesan bahasa AI.
- Khususnya, peningkatan performa pada berbagai bahasa dan pembuatan kode dapat memberi dampak positif pada beragam bidang aplikasi seperti terjemahan mesin dan pemrograman otomatis.
- Perilisannya di bawah lisensi Apache 2.0 memberi peneliti dan pengembang kesempatan untuk menggunakan dan meningkatkan model ini secara bebas, sehingga dapat berkontribusi pada pertumbuhan komunitas AI open source.
1 komentar
Komentar Hacker News
Diskusi tentang model Mixtral 8x7B
Performa model dan kegunaannya
Cara menggunakan model
Penggunaan di Mac silicon
Berita dan diskusi terkait
Performa benchmark model
Pendapat kritis terhadap makalahnya
Isi wawancara pendiri Mistral
Penjelasan tiap model ahli
Harapan atas dirilisnya model multimodal