Mistral AI merilis model terbuka baru Mixtral 8x22B

(mistral.ai)

9 poin oleh GN⁺ 2024-04-18 | 6 komentar | Bagikan ke WhatsApp

"Lebih murah, lebih baik, lebih cepat, dan lebih kuat"
Model Sparse Mixture-of-Experts(SMoE) yang hanya menggunakan 39B parameter aktif dari total 141B parameter, sehingga sangat unggul dalam efisiensi biaya dibanding ukuran modelnya

Fitur utama Mixtral 8x22B

Fasih dalam bahasa Inggris, Prancis, Italia, Jerman, dan Spanyol
Unggul dalam matematika dan pemrograman
Mendukung function calling secara bawaan, dan bersama mode output terbatas yang diimplementasikan di la Plateforme, memungkinkan pengembangan aplikasi skala besar dan modernisasi tech stack
Jendela konteks 64K token memungkinkan recall informasi yang akurat dari dokumen dalam jumlah besar

Mistral AI meyakini kekuatan keterbukaan dan distribusi luas untuk mendorong inovasi dan kolaborasi dalam AI
Mixtral 8x22B didistribusikan dengan Apache 2.0, lisensi open source yang paling permisif, sehingga siapa pun dapat menggunakan model ini tanpa batasan

Mistral AI membangun model yang memberikan performa terbaik dibanding biaya untuk setiap ukuran model, sehingga menawarkan rasio performa terhadap biaya terbaik di antara model yang tersedia bagi komunitas
Mixtral 8x22B merupakan perpanjangan alami dari keluarga model terbuka Mistral AI. Berkat pola aktivasi sparse, model ini lebih cepat daripada model Dense 70B sekaligus menawarkan lebih banyak kemampuan dibanding model open weight lain yang didistribusikan dengan lisensi permisif maupun restriktif. Ketersediaan model dasar juga menjadikannya fondasi yang sangat cocok untuk use case fine-tuning

Mixtral 8x22B dioptimalkan untuk penalaran
Pada benchmark akal sehat, penalaran, dan pengetahuan (MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA, NaturalQS), model ini menunjukkan performa terbaik di antara model LLM terbuka kelas atas

Mixtral 8x22B memiliki kemampuan multibahasa secara bawaan
Pada benchmark HellaSwag, Arc Challenge, dan MMLU dalam bahasa Prancis, Jerman, Spanyol, dan Italia, model ini jauh melampaui LLaMA 2 70B

Mixtral 8x22B menunjukkan performa terbaik untuk tugas pemrograman dan matematika dibanding model terbuka lain
Pada benchmark pemrograman dan matematika (HumanEval pass@1, MBPP pass@1, GSM8K maj@1/8, Math maj@4), model ini mencatat performa tertinggi di antara model terbuka terdepan
Versi Instructed dari Mixtral 8x22B yang diumumkan hari ini memiliki performa matematika yang lebih unggul lagi, dengan skor 90.8% pada GSM8K maj@8 dan 44.6% pada Math maj@4

Mixtral 8x22B adalah model terbesar di antara model terbuka Mistral, namun tetap sangat efisien dari sisi biaya berkat pemanfaatan sparsity. Ini layak diperhatikan sebagai salah satu arah perkembangan model LLM open source
Performa multibahasa yang unggul dibanding ukuran model, serta kemampuan matematika/pemrogramannya, tampak menjadi poin pembeda Mixtral 8x22B. Namun, untuk bahasa selain Inggris, cakupan bahasa yang didukung masih relatif sempit, dan jika dibandingkan dengan LLM terbaru seperti GPT-4, kemampuan pemrograman maupun matematikanya masih tertinggal
Penerapan lisensi Apache 2.0, yang memungkinkan siapa pun memanfaatkannya secara bebas, merupakan keunggulan, tetapi potensi penyalahgunaannya juga tampak tinggi. Upaya komunitas untuk pengembangan dan pemanfaatan model AI open source yang bertanggung jawab tampaknya semakin dibutuhkan
Kemampuan untuk mengembangkan aplikasi dan memodernisasi tech stack dengan memanfaatkan model Mixtral memang menarik, tetapi untuk diterapkan pada layanan berskala besar tampaknya masih ada keterbatasan teknis dan biaya. Namun demikian, diharapkan akan semakin banyak contoh inovasi berbasis open source
Di Korea, KakaoBrain, NAVER, dan LG AI Research juga sedang mengembangkan LLM mereka sendiri. Dari sisi spesialisasi untuk pasar Korea, seperti performa pemrosesan bahasa Korea, model-model ini tampaknya akan memiliki daya saing

ninebow 2024-04-19

dormis 2024-04-19

Sepertinya sudah terdaftar agar bisa langsung digunakan di Azure AI Studio. (mistralai-Mixtral-8x7B-v01, mistral-community-Mixtral-8x22B-v0-1)

vkehfdl1 2024-04-18

Polyglot dibuat oleh Tunib ai dan EleutherAI, bukan Kakao Brain. Sepertinya ada halusinasi ya T_T

xguru 2024-04-19

Ah, benar juga. Sudah saya perbaiki. Terima kasih.

xguru 2024-04-18

Kalau diminta menyampaikan pendapat ke Claude Opus, kadang dia menyelipkan pembicaraan tentang dalam negeri seperti ini. Menarik juga, haha

GN⁺ 2024-04-18

Ringkasan:

Mencoba memasukkan pertanyaan terkait pajak ke ChatGPT, tetapi yang muncul justru iklan layanan penulisan esai
Meminta penjelasan sederhana tentang konsep "Mixture-of-Experts"
- Memahami konsep adanya para ahli bawahan, tetapi penasaran bagaimana tiap bidang keahlian ditentukan selama pelatihan
Kekecewaan terhadap ukuran context window 64K token
- Tidak berhasil menyamai 128K milik GPT-4 Turbo, dan ini bisa menjadi bahan candaan ke depannya
- Di masa depan diperkirakan akan meningkat hingga level 1 triliun token
Menanyakan cara terbaik menjalankan LLM di MacBook Pro
- LMStudio antarmukanya tidak disukai, dan Ollama terasa tidak nyaman digunakan lewat CLI
- Lebih menyukai solusi seperti OpenAI yang memungkinkan pengaturan detail dan pengeditan prompt yang mudah
Keterbatasan model terbuka
- Jika tidak ada akses ke data pelatihan, model tidak bisa direplikasi
Hasil perbandingan antara seri Mistral dan performanya
Keuntungan menjalankan startup AI
- Setiap kali model besar baru dirilis, produk otomatis ikut membaik
Pertanyaan apakah versi LLM "non-instructed" adalah versi tanpa panduan dari versi "instructed"
Pentingnya RAM kembali menonjol karena LLM
- Menyesal tidak menambahkan RAM 32GB ekstra pada MacBook Pro
Harapan terhadap model terkuantisasi
- Menginginkan model 3-bit yang bisa dijalankan di MacBook Pro 64GB