- Mistral Large 2 mendukung context window 128k serta berbagai bahasa termasuk Prancis, Jerman, Spanyol, Italia, Tiongkok, Jepang, dan Korea
- Juga mendukung lebih dari 80 bahasa pemrograman termasuk Python, Java, C, C++, JavaScript, dan Bash
- Dirancang untuk inferensi single-node, terdiri dari 123 miliar parameter, sehingga dapat memberikan throughput tinggi pada satu node
- Didistribusikan di bawah Mistral Research License, yang memungkinkan penggunaan dan modifikasi untuk riset serta penggunaan nonkomersial. Untuk penggunaan komersial, perlu memperoleh Mistral Commercial License
Performa umum
- Mistral Large 2 menetapkan tolok ukur baru dalam metrik evaluasi performa/biaya
- Khususnya pada MMLU, versi pra-pelatihan mencapai akurasi 84,0% dan menetapkan titik baru pada performance/cost Pareto frontier
Kode dan penalaran
- Berdasarkan pengalaman dari Codestral 22B dan Codestral Mamba, Mistral Large 2 dilatih dengan sejumlah besar kode
- Mistral Large 2 jauh lebih unggul dibanding Mistral Large sebelumnya, dan menunjukkan performa setara dengan model terdepan seperti GPT-4o, Claude 3 Opus, dan Llama 3 405B
- Banyak upaya dilakukan untuk meningkatkan kemampuan penalaran model, dan model ini di-fine-tune untuk meminimalkan kecenderungan menghasilkan informasi yang tidak sesuai fakta
- Model ini dilatih untuk mengakui ketika tidak dapat menemukan solusi atau ketika informasi yang tersedia tidak mencukupi
Kepatuhan terhadap instruksi dan alignment
- Mistral Large 2 mengalami peningkatan besar dalam kepatuhan terhadap instruksi dan kemampuan percakapan
- Karena keringkasan penting dalam banyak aplikasi bisnis, banyak upaya dilakukan agar model menghasilkan respons yang sesingkat dan setepat mungkin
Keragaman bahasa
- Mistral Large 2 dilatih dengan banyak data multibahasa dan menunjukkan performa unggul dalam bahasa Inggris, Prancis, Jerman, Spanyol, Italia, Portugis, Belanda, Rusia, Tiongkok, Jepang, Korea, Arab, dan Hindi
Penggunaan alat dan function calling
- Mistral Large 2 memiliki function calling dan kemampuan pencarian yang ditingkatkan, serta dilatih agar dapat berperan sebagai mesin penggerak untuk aplikasi bisnis yang kompleks
Akses ke model Mistral melalui penyedia layanan cloud
- Memperluas kemitraan dengan Google Cloud Platform untuk menyediakan model Mistral AI di Vertex AI
- Model Mistral AI juga tersedia di Azure AI Studio, Amazon Bedrock, dan IBM watsonx.ai
Ringkasan GN⁺
- Mistral Large 2 mendukung berbagai bahasa dan bahasa pemrograman, serta memberikan throughput tinggi pada satu node.
- Kemampuan pembuatan kode dan penalarannya meningkat signifikan, sambil meminimalkan kecenderungan menghasilkan informasi yang tidak sesuai fakta.
- Dilatih dengan banyak data multibahasa sehingga menunjukkan performa unggul dalam berbagai bahasa.
- Tersedia bagi pengguna global melalui kemitraan dengan Google Cloud Platform, Azure AI Studio, Amazon Bedrock, dan IBM watsonx.ai.
- Dirancang untuk menghasilkan respons yang ringkas dan tepat sasaran dalam aplikasi bisnis.
1 komentar
Komentar Hacker News