- Seri Mistral 3 terdiri dari model kecil 3B, 8B, dan 14B serta Mistral Large 3, yang memiliki 41B parameter aktif dan 675B total parameter, sebagai keluarga model AI open source generasi berikutnya
- Semua model dirilis dengan lisensi Apache 2.0, sehingga pengembang dan perusahaan dapat menggunakannya serta menyesuaikannya secara bebas
- Mistral Large 3 mengadopsi arsitektur Mixture-of-Experts yang dilatih dengan 3.000 GPU NVIDIA H200, mencapai performa kelas atas dalam percakapan multibahasa dan pemahaman gambar
- Ministral 3 dirancang untuk lingkungan edge, menawarkan performa per biaya yang sangat baik, dan model varian reasoning mencatat akurasi 85% pada AIME ‘25
- Mistral 3 langsung tersedia di Mistral AI Studio, Hugging Face, AWS, Azure, dan platform utama lainnya, dengan tujuan memperluas ekosistem AI terbuka
Ikhtisar Mistral 3
- Mistral 3 adalah keluarga model generasi berikutnya dari Mistral AI, terdiri dari model dense kecil (3B, 8B, 14B) dan model sparse besar Mistral Large 3
- Mistral Large 3 memiliki arsitektur Mixture-of-Experts (MoE) dengan 41B parameter aktif dan 675B total parameter
- Semua model dirilis dengan lisensi Apache 2.0, sehingga dapat dimanfaatkan oleh komunitas open source
- Model tersedia dalam berbagai format kompresi, sehingga meningkatkan aksesibilitas melalui kecerdasan terdistribusi
- Keluarga model Ministral dinilai sebagai model OSS dengan rasio performa terhadap biaya terbaik
Mistral Large 3: model papan atas berbasis bobot terbuka
- Mistral Large 3 adalah model open weight yang dilatih dari nol menggunakan 3.000 GPU NVIDIA H200
- Sebagai model Mixture-of-Experts pertama sejak seri Mixtral, model ini mencerminkan kemajuan teknologi pretraining Mistral
- Setelah pelatihan, model ini menunjukkan performa setara dengan model open weight terbaik dalam kinerja prompt umum,
dan juga mencapai hasil unggul dalam pemahaman gambar serta percakapan multibahasa non-Inggris
- Di leaderboard LMArena, model ini menempati peringkat 2 untuk model OSS non-reasoning dan peringkat 6 untuk seluruh model OSS
- Versi base dan instruct tuning telah dirilis, sementara versi reasoning akan segera hadir
Kolaborasi dengan NVIDIA, vLLM, dan Red Hat
- Mistral Large 3 bekerja sama dengan vLLM dan Red Hat agar mudah diakses oleh komunitas open source
- Menyediakan checkpoint format NVFP4 yang dibuat dengan llm-compressor
- Dapat dijalankan secara efisien melalui vLLM pada sistem Blackwell NVL72, 8×A100, dan 8×H100
- Melalui kolaborasi dengan NVIDIA, model ini mendukung inferensi presisi rendah di TensorRT-LLM, SGLang, dan lainnya
- Mengintegrasikan kernel attention dan MoE Blackwell, layanan terpisah prefill/decode, serta speculative decoding
- Mendukung deployment yang dioptimalkan di lingkungan edge seperti DGX Spark, PC RTX, dan perangkat Jetson
Ministral 3: model cerdas untuk edge
- Seri Ministral 3 untuk lingkungan edge dan lokal tersedia dalam tiga ukuran: 3B, 8B, dan 14B
- Tiap model dirilis dalam tiga varian: base, instruct, dan reasoning
- Semua varian mencakup kemampuan pemahaman gambar dan pemrosesan multibahasa
- Sebagai model OSS dengan rasio performa terhadap biaya tertinggi,
model instruct menunjukkan performa setara atau lebih baik daripada model pesaing sambil mengurangi jumlah token hingga sepersepuluhnya
- Model varian reasoning unggul pada lingkungan yang berfokus pada akurasi,
dengan model 14B mencapai akurasi 85% pada AIME ‘25
Deployment dan aksesibilitas
- Mistral 3 langsung tersedia di platform berikut
- Mistral AI Studio, Amazon Bedrock, Azure Foundry, Hugging Face, Modal, IBM WatsonX, OpenRouter, Fireworks, Unsloth AI, Together AI
- Akan segera tersedia juga di NVIDIA NIM dan AWS SageMaker
- Menyediakan layanan pelatihan model kustom untuk perusahaan
- Mendukung tugas yang spesifik domain, peningkatan performa pada dataset milik sendiri, dan deployment di lingkungan khusus
Nilai inti Mistral 3
- Performa frontier dan akses terbuka: menghadirkan performa setingkat model tertutup dalam bentuk open source
- Dukungan multimodal dan multibahasa: mampu memahami teks, gambar, dan logika dalam lebih dari 40 bahasa
- Efisiensi yang dapat diskalakan: rentang 3B hingga 675B parameter untuk kebutuhan dari edge hingga enterprise
- Kegunaan adaptif: dapat diterapkan pada berbagai alur kerja seperti coding, analisis dokumen, dan penggunaan alat
Langkah berikutnya
- Dokumentasi model dan materi teknis tersedia di Mistral Docs dan AI Governance Hub
- API dapat langsung digunakan melalui Hugging Face dan platform Mistral AI
- Tersedia kanal pertanyaan untuk pelatihan kustom perusahaan dan fine-tuning
- Partisipasi komunitas dapat dilakukan melalui Twitter/X, Discord, dan GitHub
Kesimpulan
- Mistral 3 bertujuan memperluas ekosistem AI terbuka yang dibangun di atas transparansi, aksesibilitas, dan perkembangan bersama
- Dengan membuka kemungkinan baru dalam reasoning, efisiensi, dan aplikasi nyata,
Mistral 3 memantapkan posisinya sebagai model terbuka generasi berikutnya yang "mengubah pemahaman menjadi tindakan"
Belum ada komentar.