- MiniMax-M1 adalah model penalaran berbasis hybrid attention skala besar open-weight pertama di dunia
- Dengan struktur hybrid MoE berskala 456 miliar parameter dan mekanisme Lightning Attention, model ini unggul dalam menangani konteks panjang
- Pembelajaran berbasis RL dan penerapan algoritme CISPO memungkinkan penyelesaian beragam masalah secara efisien
- Pada benchmark, dibandingkan dengan DeepSeek-R1, Qwen3-235B dan lainnya, model ini menunjukkan performa unggul pada rekayasa SW yang kompleks, penggunaan tool, dan input panjang
- Dengan berbagai lingkungan inferensi, tool pendukung, API, dan chatbot, model ini sangat bernilai sebagai fondasi agen model bahasa generasi berikutnya
Gambaran proyek open source MiniMax-M1
- MiniMax-M1 adalah model penalaran hybrid attention skala besar open-weight pertama di dunia, yang menunjukkan keunggulan kuat dan kegunaan praktis dibanding model komersial maupun open model yang ada
- Dioptimalkan untuk konteks panjang, penalaran kompleks, dan pemecahan masalah lingkungan perangkat lunak dengan menggabungkan struktur Mixture-of-Experts (MoE) hybrid skala besar dan mekanisme Lightning Attention
- Mendukung konteks panjang (hingga 1 juta token) secara efisien, dan secara drastis mengurangi komputasi saat pengujian (25% FLOPs dibanding DeepSeek-R1 pada 100K)
- Dengan teknologi RL terbaru, algoritme CISPO yang baru, dan desain hybrid attention, model ini memaksimalkan skalabilitas sekaligus efisiensi penalaran
1. Ringkasan model
- MiniMax-M1 dibekali struktur Mixture-of-Experts (MoE) hybrid dan Lightning Attention
- Dikembangkan berdasarkan pendahulunya, MiniMax-Text-01 (456 miliar parameter, 45,9 miliar parameter aktif per token)
- Mendukung panjang konteks 1 juta token (8 kali ukuran konteks DeepSeek R1)
- Lightning Attention secara signifikan mengurangi komputasi saat pengujian (25% dibanding DeepSeek R1)
- Cocok untuk tugas yang memerlukan input panjang dan penalaran kompleks
- Dilatih melalui RL skala besar untuk berbagai masalah luas seperti penalaran matematis dan rekayasa SW dunia nyata
- Menawarkan framework scaling RL khas MiniMax-M1
- Metode CISPO: memperkenalkan algoritme clipping bobot importance sampling yang lebih unggul dibanding metode RL sebelumnya
- Meningkatkan efisiensi dan skalabilitas RL berbasis hybrid attention
- Dilatih dan dirilis dalam dua varian model: 40K, 80K thinking budget
- Menunjukkan performa unggul dibanding open model berperforma tinggi yang ada seperti DeepSeek-R1 dan Qwen3-235B pada rekayasa SW, penggunaan tool, dan tugas long-context
- Memberikan fondasi untuk membangun agen model bahasa generasi berikutnya guna menyelesaikan tantangan dunia nyata
2. Evaluasi
Poin utama hasil benchmark
- Mencapai level SOTA di bidang matematika, kode, rekayasa SW, dan konteks panjang
- Secara umum meraih skor lebih tinggi dibanding open model lain, terutama menunjukkan daya saing yang berbeda pada benchmark perangkat lunak (SWE-bench) dan long-context
- Contoh metrik yang menonjol
- SWE-bench: 56.0(M1-80k) / 34.4(Qwen3) / 49.2(DeepSeek R1)
- OpenAI-MRCR(128k): 73.4(M1-80k) / 27.7(Qwen3) / 35.8(DeepSeek R1)
- Tangguh pada tugas relevan pengembangan SW seperti LiveCodeBench dan FullStackBench
- Lingkungan eksekusi: dievaluasi pada temperature 1.0, top_p 0.95
- Untuk benchmark seperti SWE-bench dan TAU-bench, evaluasi dilakukan berdasarkan prosedur dan konfigurasi internal (misalnya lokalisasi dua tahap berbasis file, tanpa penggunaan embedding)
3. Panduan penggunaan model MiniMax-M1
Pengaturan yang direkomendasikan untuk performa optimal
3.1. Parameter inferensi
- Temperature: 1.0
- Top_p: 0.95
Kombinasi ini menyediakan lingkungan yang menjaga keragaman teks sekaligus konsistensi logis
3.2. System prompt
- Tugas umum: "You are a helpful assistant."
- Pengembangan web: menyediakan prompt khusus untuk pekerjaan halaman web kompleks seperti menghasilkan kode UI terpadu
- Penalaran matematis: uraikan langkah demi langkah lalu tuliskan jawaban akhir di dalam \boxed{}
4. Panduan deployment
- Model MiniMax-M1-40k dan MiniMax-M1-80k dapat diunduh dari HuggingFace
- Untuk layanan produksi, deployment berbasis vLLM direkomendasikan
- Cocok untuk serving model skala besar berkat manajemen memori yang efisien, pemrosesan batch yang unggul, dan optimisasi performa
- Deployment terpisah berbasis Transformers juga didukung
5. Function calling (antarmuka fungsional)
- MiniMax-M1 mendukung fitur function calling
- Saat fungsi eksternal diperlukan, parameter akan otomatis dihasilkan dalam format terstruktur
- Menyediakan panduan function calling
6. Chatbot & API
- MiniMax Chatbot: menyediakan antarmuka chat yang juga mencakup pencarian online
- API: menyediakan API online untuk developer serta tool pemanfaatan developer seperti MiniMax MCP Server
- Termasuk sintesis video, gambar, dan suara berbasis AI, serta voice cloning
1 komentar
Komentar Hacker News
Kalau penasaran perlu apa untuk menjalankan ini, dibutuhkan 8 buah H200 141GB dan harganya sekitar 250 ribu dolar
diskusi GitHub / info harga produk di eBay
Dikatakan bahwa minggu ini adalah 'launch week' MiniMax
Mereka merilis M1 pada hari Senin, lalu Hailuo 2 pada hari Selasa
kabar terkait model Tiongkok
Belum jelas apakah pengumuman seperti ini akan terus berlanjut sepanjang minggu, dan untuk saat ini perusahaan ini terutama dikenal lewat LLM dan model video
Pengumuman resmi bisa dilihat di X MiniMax (dulu Twitter)
Selain itu, laporan teknis MiniMax M1 juga bermanfaat
PDF laporan teknis
Memang bukan model open-weight SOTA, tetapi mereka membuat klaim yang sangat menarik dan besar soal lightning attention dan varian GRPO (CISPO)
(Saya tidak punya hubungan apa pun dengan perusahaan ini, hanya berbagi info yang saya dapat)
Saat melihat kalimat "We publicly release MiniMax-M1 at this https url" di makalah arXiv, saya jadi suka perusahaan ini karena ternyata yang dibuka benar-benar kode nyata, bukan repositori kosong
Menurut saya
Kalau ada pakar tepercaya atau orang yang membahas area ini dengan menarik, saya ingin diperkenalkan
Mereka juga berencana melantai di Bursa Efek Hong Kong (HKEX) dalam waktu dekat
artikel terkait
Hal ini tidak disebutkan secara jelas di halaman resmi, tetapi MiniMax adalah perusahaan Tiongkok
lihat Wikipedia
Nama model seperti ini seharusnya bisa dibuat lebih baik
Terdengar seperti prosesor Mac Studio
Itu diambil dari nama algoritma AI klasik yang sangat terkenal
Di makalah tertulis, "In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention"
Artinya, 87,5% keseluruhannya adalah linear attention, dan 12,5% adalah full attention
Sebenarnya istilah 'linear attention' itu membingungkan
softmax attention adalah cara perutean informasi; saat menghitung token k, ia menerima informasi dari 1~k, tetapi harus melewati kanal berukuran tetap
Sementara itu, linear attention hanya punya 'register bank' berukuran tetap di setiap layer
Sulit dibilang itu benar-benar attention; selain kompatibel dengan komputasi layer-at-once, tidak ada banyak hal yang menonjol
Ada kabar bahwa MiniMax sedang memunculkan rumor soal IPO
artikel terkait
Jika model sebesar ini dilatih tanpa infrastruktur cloud Barat, saya penasaran seperti apa struktur pemrosesan tokennya
lihat xcancel