Model penalaran Xiaomi MiMo
(github.com/XiaomiMiMo)- MiMo-7B adalah seri model yang dikembangkan untuk memaksimalkan potensi penalaran model bahasa
- Melalui strategi pra-pelatihan dan pasca-pelatihan, model ini menunjukkan kinerja unggul pada tugas penalaran matematika dan kode
- Meskipun merupakan model kecil, MiMo-7B menunjukkan kinerja yang sebanding dengan model yang lebih besar
- Tersedia sebagai open source, sehingga memiliki potensi untuk berkontribusi kepada komunitas
- Melalui infrastruktur RL, kecepatan pelatihan dan validasi meningkat secara signifikan
I. Pengenalan
- Sebagian besar riset reinforcement learning (RL) yang sukses bergantung pada model besar, dan sulit untuk secara bersamaan meningkatkan kemampuan matematika dan kode pada model kecil
- MiMo-7B adalah model yang dilatih dari awal untuk tugas penalaran, dan memiliki potensi penalaran yang melampaui model yang lebih besar
- Seri MiMo-7B disediakan sebagai open source dan dapat berkontribusi pada komunitas dalam mengembangkan model bahasa penalaran yang kuat
๐ Poin utama
-
Pra-pelatihan: model dasar untuk penalaran
- Mengoptimalkan pipeline pra-pemrosesan data untuk meningkatkan kepadatan pola penalaran
- Menggunakan berbagai strategi untuk menghasilkan data penalaran sintetis yang beragam
- Meningkatkan kinerja model dengan memasukkan prediksi multi-token sebagai tujuan pelatihan tambahan
-
Resep pasca-pelatihan: model penalaran perintis
- Menggunakan 130K soal matematika dan kode sebagai data pelatihan RL
- Memperkenalkan reward kode berbasis tingkat kesulitan pengujian untuk melakukan optimasi kebijakan secara efektif
- Menerapkan strategi resampling data untuk soal mudah guna menstabilkan pembaruan kebijakan
-
Infrastruktur RL
- Mengembangkan Seamless Rollout Engine untuk mempercepat pelatihan dan validasi RL
- Mendukung MTP di vLLM, serta memperkuat ketahanan inference engine pada sistem RL
II. Detail model
- Seri MiMo-7B menyediakan berbagai checkpoint model dan dapat diunduh dari HuggingFace
III. Hasil evaluasi
- MiMo-7B-RL menunjukkan kinerja unggul pada tugas penalaran matematika dan kode
- Mencapai hasil yang kompetitif di berbagai benchmark
IV. Deployment
- Dukungan inferensi melalui vLLM dan HuggingFace
- Dapat memberikan performa optimal melalui lingkungan yang direkomendasikan dan penggunaan prompt
V. Sitasi
- Menyediakan informasi sitasi untuk MiMo-7B
VI. Kontak
- Untuk pertanyaan, hubungi mimo@xiaomi.com atau kirim melalui GitHub issue
1 komentar
Opini Hacker News
Menarik melihat bagaimana makalah ini menangani tahap reinforcement learning (RL) untuk data kode. Mereka melatih model pada tugas pembuatan kode yang bisa diverifikasi dengan menjalankan unit test. Saya jadi penasaran apakah model lain juga menjalani tahap pelatihan seperti ini
Saya penasaran mengapa begitu banyak model AI dari Tiongkok yang memprioritaskan bahasa Inggris. Apakah mereka tidak tertarik pada populasi dalam negerinya, atau apakah mereka berpikir bahwa jika merilis model yang memprioritaskan bahasa Mandarin, mereka tidak akan mendapat perhatian di Barat
Performa coding model 7B ini sangat kuat. Saya memakai Gemini Pro 2.5 dan model itu mendapat 67.8 poin, sedangkan model ini mendapat 57.8 poin, sangat dekat dengan 60.6 poin milik Gemini 2.5 Flash
MiMo-7B diklaim melampaui model yang lebih besar seperti Qwen-32B dan menyamai OpenAI o1-mini pada benchmark matematika/kode. Saya penasaran apakah ini tanda bahwa pretraining + optimasi RLHF mulai mengungguli skala, atau kita hanya semakin mahir membuat benchmark untuk kemampuan yang sempit
Menarik melihat benchmark yang mengabaikan model top-performer seperti O3. Saat ini itu adalah model terbaik di banyak benchmark. Ada juga Gemini Pro/Claude 3.7
Saat memakai file gguf di ollama, saya penasaran apakah orang biasanya membuat modelfile untuk dipakai bersama model baru, atau hanya berharap ollama bawaan bisa langsung bekerja dengan model baru itu
Di README hanya tertulis "RL" tanpa menjelaskan jenis RL apa yang digunakan. Untuk para peneliti: saya tahu kalian sibuk, tetapi tolong jangan hilangkan detail seperti ini
Saya sudah sedikit mengujinya dan secara umum model ini cukup solid. Waktu tunggunya lumayan lama karena waktu berpikirnya panjang, bahkan lebih lama daripada model yang lebih besar seperti qwen moe terbaru
Saya penasaran apakah mereka akan memakai model ini sebagai AI assistant di ponsel seri Xiaomi 15. Mungkin iya. Saya belum yakin apa yang harus diharapkan
Wow. Benchmark yang hebat. Saya tidak sabar ingin berbincang dengan model ini