- "Lebih murah, lebih baik, lebih cepat, dan lebih kuat"
- Model Sparse Mixture-of-Experts(SMoE) yang hanya menggunakan 39B parameter aktif dari total 141B parameter, sehingga sangat unggul dalam efisiensi biaya dibanding ukuran modelnya
Fitur utama Mixtral 8x22B
- Fasih dalam bahasa Inggris, Prancis, Italia, Jerman, dan Spanyol
- Unggul dalam matematika dan pemrograman
- Mendukung function calling secara bawaan, dan bersama mode output terbatas yang diimplementasikan di la Plateforme, memungkinkan pengembangan aplikasi skala besar dan modernisasi tech stack
- Jendela konteks 64K token memungkinkan recall informasi yang akurat dari dokumen dalam jumlah besar
Model yang benar-benar terbuka
- Mistral AI meyakini kekuatan keterbukaan dan distribusi luas untuk mendorong inovasi dan kolaborasi dalam AI
- Mixtral 8x22B didistribusikan dengan Apache 2.0, lisensi open source yang paling permisif, sehingga siapa pun dapat menggunakan model ini tanpa batasan
Efisiensi terbaik
- Mistral AI membangun model yang memberikan performa terbaik dibanding biaya untuk setiap ukuran model, sehingga menawarkan rasio performa terhadap biaya terbaik di antara model yang tersedia bagi komunitas
- Mixtral 8x22B merupakan perpanjangan alami dari keluarga model terbuka Mistral AI. Berkat pola aktivasi sparse, model ini lebih cepat daripada model Dense 70B sekaligus menawarkan lebih banyak kemampuan dibanding model open weight lain yang didistribusikan dengan lisensi permisif maupun restriktif. Ketersediaan model dasar juga menjadikannya fondasi yang sangat cocok untuk use case fine-tuning
Performa terbuka yang tak tertandingi
Penalaran dan pengetahuan
- Mixtral 8x22B dioptimalkan untuk penalaran
- Pada benchmark akal sehat, penalaran, dan pengetahuan (MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA, NaturalQS), model ini menunjukkan performa terbaik di antara model LLM terbuka kelas atas
Kemampuan multibahasa
- Mixtral 8x22B memiliki kemampuan multibahasa secara bawaan
- Pada benchmark HellaSwag, Arc Challenge, dan MMLU dalam bahasa Prancis, Jerman, Spanyol, dan Italia, model ini jauh melampaui LLaMA 2 70B
Matematika dan pemrograman
- Mixtral 8x22B menunjukkan performa terbaik untuk tugas pemrograman dan matematika dibanding model terbuka lain
- Pada benchmark pemrograman dan matematika (HumanEval pass@1, MBPP pass@1, GSM8K maj@1/8, Math maj@4), model ini mencatat performa tertinggi di antara model terbuka terdepan
- Versi Instructed dari Mixtral 8x22B yang diumumkan hari ini memiliki performa matematika yang lebih unggul lagi, dengan skor 90.8% pada GSM8K maj@8 dan 44.6% pada Math maj@4
Opini GN⁺
- Mixtral 8x22B adalah model terbesar di antara model terbuka Mistral, namun tetap sangat efisien dari sisi biaya berkat pemanfaatan sparsity. Ini layak diperhatikan sebagai salah satu arah perkembangan model LLM open source
- Performa multibahasa yang unggul dibanding ukuran model, serta kemampuan matematika/pemrogramannya, tampak menjadi poin pembeda Mixtral 8x22B. Namun, untuk bahasa selain Inggris, cakupan bahasa yang didukung masih relatif sempit, dan jika dibandingkan dengan LLM terbaru seperti GPT-4, kemampuan pemrograman maupun matematikanya masih tertinggal
- Penerapan lisensi Apache 2.0, yang memungkinkan siapa pun memanfaatkannya secara bebas, merupakan keunggulan, tetapi potensi penyalahgunaannya juga tampak tinggi. Upaya komunitas untuk pengembangan dan pemanfaatan model AI open source yang bertanggung jawab tampaknya semakin dibutuhkan
- Kemampuan untuk mengembangkan aplikasi dan memodernisasi tech stack dengan memanfaatkan model Mixtral memang menarik, tetapi untuk diterapkan pada layanan berskala besar tampaknya masih ada keterbatasan teknis dan biaya. Namun demikian, diharapkan akan semakin banyak contoh inovasi berbasis open source
- Di Korea, KakaoBrain, NAVER, dan LG AI Research juga sedang mengembangkan LLM mereka sendiri. Dari sisi spesialisasi untuk pasar Korea, seperti performa pemrosesan bahasa Korea, model-model ini tampaknya akan memiliki daya saing
6 komentar
Model dasar Mixtral 8x22B: https://huggingface.co/mistralai/Mixtral-8x22B-v0.1
Model Instruct Mixtral 8x22B: https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1
Sepertinya sudah terdaftar agar bisa langsung digunakan di Azure AI Studio. (mistralai-Mixtral-8x7B-v01, mistral-community-Mixtral-8x22B-v0-1)
Polyglot dibuat oleh Tunib ai dan EleutherAI, bukan Kakao Brain. Sepertinya ada halusinasi ya T_T
Ah, benar juga. Sudah saya perbaiki. Terima kasih.
Kalau diminta menyampaikan pendapat ke Claude Opus, kadang dia menyelipkan pembicaraan tentang dalam negeri seperti ini. Menarik juga, haha
Opini Hacker News
Ringkasan:
LMStudioantarmukanya tidak disukai, danOllamaterasa tidak nyaman digunakan lewat CLIMistraldan performanya