- Mistral NeMo, model 12 miliar parameter yang dikembangkan bekerja sama dengan NVIDIA, resmi diluncurkan
- Menyediakan jendela konteks besar hingga 128k token
- Unggul di kelasnya dalam penalaran, pengetahuan dunia, dan akurasi coding
- Menggunakan arsitektur standar sehingga dapat dengan mudah diterapkan pada sistem yang menggunakan Mistral 7B
- Checkpoint dasar yang telah dipra-latih dan checkpoint instruction-tuned dirilis di bawah lisensi Apache 2.0 untuk mendorong adopsi oleh peneliti dan perusahaan
- Dilatih dengan kesadaran kuantisasi sehingga mendukung inferensi FP8 tanpa penurunan kinerja
Model multibahasa
- Dirancang untuk aplikasi multibahasa global
- Dilatih untuk function calling dan memiliki jendela konteks yang besar
- Sangat kuat khususnya dalam bahasa Inggris, Prancis, Jerman, Spanyol, Italia, Portugis, Tionghoa, Jepang, Korea, Arab, dan Hindi
- Bertujuan menghadirkan model AI mutakhir bagi pengguna semua bahasa
Tekken, tokenizer yang lebih efisien
- Menggunakan tokenizer baru Tekken berbasis Tiktoken
- Mengompresi teks bahasa alami dan source code di lebih dari 100 bahasa secara lebih efisien dibanding tokenizer SentencePiece
- Sekitar 30% lebih efisien untuk source code, bahasa Tionghoa, Italia, Prancis, Jerman, Spanyol, dan Rusia
- Masing-masing 2 kali dan 3 kali lebih efisien untuk bahasa Korea dan Arab
- Dibandingkan tokenizer Llama 3, memberikan kinerja kompresi yang lebih baik di sekitar 85% bahasa
Instruction fine-tuning
- Mistral NeMo melalui tahap advanced fine-tuning dan alignment
- Dibandingkan Mistral 7B, jauh lebih unggul dalam mengikuti instruksi secara akurat, bernalar, menangani percakapan multi-turn, dan menghasilkan kode
Tautan
- Bobot model dasar dan model instruksi di-host di HuggingFace
- Mistral NeMo dapat dicoba dengan
mistral-inference, dan dapat disesuaikan dengan mistral-finetune
- Dikemas sebagai NVIDIA NIM inference microservice dan tersedia di ai.nvidia.com
1 komentar
Opini Hacker News
Mistral NeMo adalah model 12B yang dikembangkan bekerja sama dengan NVIDIA, dan menawarkan context window besar hingga 128k token
Mistral NeMo menggunakan tokenizer baru bernama Tekken, yang dilatih pada lebih dari 100 bahasa dan mengompresi teks serta source code lebih efisien daripada SentencePiece
Ada juga postingan tentang Mistral NeMo di blog NVIDIA
Model berskala besar dirilis dengan cepat, yang berarti perusahaan telah menemukan cara untuk menskalakan proses yang dapat diskalakan
Ada pendapat bahwa pengalaman mendaftar NVIDIA Enterprise untuk mencoba versi paket "NIM" terasa tidak nyaman
Ada pendapat bahwa jika Mistral serius mempertimbangkan kemajuan open source, mereka harus membagikan korpus yang digunakan untuk melatih model
Ada pertanyaan apakah pelatihan multibahasa memberikan "crossover"
Kurang ada pemahaman tentang model bisnis merilis model AI generatif open source secara gratis