1 poin oleh GNโบ 2025-05-01 | 1 komentar | Bagikan ke WhatsApp
  • MiMo-7B adalah seri model yang dikembangkan untuk memaksimalkan potensi penalaran model bahasa
  • Melalui strategi pra-pelatihan dan pasca-pelatihan, model ini menunjukkan kinerja unggul pada tugas penalaran matematika dan kode
  • Meskipun merupakan model kecil, MiMo-7B menunjukkan kinerja yang sebanding dengan model yang lebih besar
  • Tersedia sebagai open source, sehingga memiliki potensi untuk berkontribusi kepada komunitas
  • Melalui infrastruktur RL, kecepatan pelatihan dan validasi meningkat secara signifikan

I. Pengenalan

  • Sebagian besar riset reinforcement learning (RL) yang sukses bergantung pada model besar, dan sulit untuk secara bersamaan meningkatkan kemampuan matematika dan kode pada model kecil
  • MiMo-7B adalah model yang dilatih dari awal untuk tugas penalaran, dan memiliki potensi penalaran yang melampaui model yang lebih besar
  • Seri MiMo-7B disediakan sebagai open source dan dapat berkontribusi pada komunitas dalam mengembangkan model bahasa penalaran yang kuat

๐ŸŒŸ Poin utama

  • Pra-pelatihan: model dasar untuk penalaran

    • Mengoptimalkan pipeline pra-pemrosesan data untuk meningkatkan kepadatan pola penalaran
    • Menggunakan berbagai strategi untuk menghasilkan data penalaran sintetis yang beragam
    • Meningkatkan kinerja model dengan memasukkan prediksi multi-token sebagai tujuan pelatihan tambahan
  • Resep pasca-pelatihan: model penalaran perintis

    • Menggunakan 130K soal matematika dan kode sebagai data pelatihan RL
    • Memperkenalkan reward kode berbasis tingkat kesulitan pengujian untuk melakukan optimasi kebijakan secara efektif
    • Menerapkan strategi resampling data untuk soal mudah guna menstabilkan pembaruan kebijakan
  • Infrastruktur RL

    • Mengembangkan Seamless Rollout Engine untuk mempercepat pelatihan dan validasi RL
    • Mendukung MTP di vLLM, serta memperkuat ketahanan inference engine pada sistem RL

II. Detail model

  • Seri MiMo-7B menyediakan berbagai checkpoint model dan dapat diunduh dari HuggingFace

III. Hasil evaluasi

  • MiMo-7B-RL menunjukkan kinerja unggul pada tugas penalaran matematika dan kode
  • Mencapai hasil yang kompetitif di berbagai benchmark

IV. Deployment

  • Dukungan inferensi melalui vLLM dan HuggingFace
  • Dapat memberikan performa optimal melalui lingkungan yang direkomendasikan dan penggunaan prompt

V. Sitasi

  • Menyediakan informasi sitasi untuk MiMo-7B

VI. Kontak

  • Untuk pertanyaan, hubungi mimo@xiaomi.com atau kirim melalui GitHub issue

1 komentar

 
GNโบ 2025-05-01
Opini Hacker News
  • Menarik melihat bagaimana makalah ini menangani tahap reinforcement learning (RL) untuk data kode. Mereka melatih model pada tugas pembuatan kode yang bisa diverifikasi dengan menjalankan unit test. Saya jadi penasaran apakah model lain juga menjalani tahap pelatihan seperti ini

    • Data kode: mereka mengkurasi set pelatihan berkualitas tinggi yang mencakup dataset open source dan kumpulan soal baru yang dikumpulkan untuk masalah pemrograman. Soal tanpa test case dihapus. Untuk soal yang memiliki golden solution, soal dikeluarkan jika solusi tersebut gagal melewati semua test case. Untuk soal tanpa golden solution, soal dikeluarkan jika tidak dapat diselesaikan oleh model penalaran canggih dalam 16 rollout. Mirip dengan data matematika, mereka menggunakan versi SFT dari MiMo-7B untuk menyaring soal mudah yang terselesaikan sempurna di semua 16 rollout. Proses pembersihan yang ketat ini menghasilkan 30.000 soal kode
    • Pada setiap iterasi RL, ribuan soal dievaluasi untuk menghitung reward. Setiap soal bisa mencakup ratusan test case. Untuk meningkatkan efisiensi perhitungan reward dan menghilangkan waktu idle GPU, mereka mengembangkan lingkungan online judge yang dapat menjalankan unit test paralel dalam volume yang sangat tinggi
  • Saya penasaran mengapa begitu banyak model AI dari Tiongkok yang memprioritaskan bahasa Inggris. Apakah mereka tidak tertarik pada populasi dalam negerinya, atau apakah mereka berpikir bahwa jika merilis model yang memprioritaskan bahasa Mandarin, mereka tidak akan mendapat perhatian di Barat

  • Performa coding model 7B ini sangat kuat. Saya memakai Gemini Pro 2.5 dan model itu mendapat 67.8 poin, sedangkan model ini mendapat 57.8 poin, sangat dekat dengan 60.6 poin milik Gemini 2.5 Flash

    • Karena apa yang saya dengar tentang llama4, saya jadi skeptis terhadap hasil evaluasi, tetapi saya akan melihat dulu bagaimana posisinya dalam evaluasi tertutup. Meski begitu, ini sangat mengesankan
  • MiMo-7B diklaim melampaui model yang lebih besar seperti Qwen-32B dan menyamai OpenAI o1-mini pada benchmark matematika/kode. Saya penasaran apakah ini tanda bahwa pretraining + optimasi RLHF mulai mengungguli skala, atau kita hanya semakin mahir membuat benchmark untuk kemampuan yang sempit

  • Menarik melihat benchmark yang mengabaikan model top-performer seperti O3. Saat ini itu adalah model terbaik di banyak benchmark. Ada juga Gemini Pro/Claude 3.7

  • Saat memakai file gguf di ollama, saya penasaran apakah orang biasanya membuat modelfile untuk dipakai bersama model baru, atau hanya berharap ollama bawaan bisa langsung bekerja dengan model baru itu

  • Di README hanya tertulis "RL" tanpa menjelaskan jenis RL apa yang digunakan. Untuk para peneliti: saya tahu kalian sibuk, tetapi tolong jangan hilangkan detail seperti ini

  • Saya sudah sedikit mengujinya dan secara umum model ini cukup solid. Waktu tunggunya lumayan lama karena waktu berpikirnya panjang, bahkan lebih lama daripada model yang lebih besar seperti qwen moe terbaru

    • moe tampaknya merupakan kompromi yang lebih baik secara keseluruhan
  • Saya penasaran apakah mereka akan memakai model ini sebagai AI assistant di ponsel seri Xiaomi 15. Mungkin iya. Saya belum yakin apa yang harus diharapkan

  • Wow. Benchmark yang hebat. Saya tidak sabar ingin berbincang dengan model ini

    • Ada beberapa hal yang menonjol. Pertama, model 7B ini dilatih dengan 25T token(!). Ini skala pelatihan ala Meta. Llama 4 Maverick dilatih dengan sekitar 22T. (Scout, model yang lebih kecil: 40T)
    • Kedua, ini jalur yang menarik: bukan model distillation atau lapisan RL untuk memperoleh penalaran dari model lain, melainkan langsung menuju model RL yang memiliki penalaran bawaan sejak awal. Klaimnya, cara ini bisa memberi efisiensi tambahan yang besar per parameter
    • Saya belum punya pengalaman dengan model Xiaomi, jadi saya tetap berhati-hati terhadap model ini, tetapi secara statistik ini tampak seperti model penalaran lokal yang sangat menjanjikan