MiniMax-M1 open-weight, model penalaran hybrid attention skala besar

(github.com/MiniMax-AI)

5 poin oleh GN⁺ 2025-06-19 | 1 komentar | Bagikan ke WhatsApp

MiniMax-M1 adalah model penalaran berbasis hybrid attention skala besar open-weight pertama di dunia
Dengan struktur hybrid MoE berskala 456 miliar parameter dan mekanisme Lightning Attention, model ini unggul dalam menangani konteks panjang
Pembelajaran berbasis RL dan penerapan algoritme CISPO memungkinkan penyelesaian beragam masalah secara efisien
Pada benchmark, dibandingkan dengan DeepSeek-R1, Qwen3-235B dan lainnya, model ini menunjukkan performa unggul pada rekayasa SW yang kompleks, penggunaan tool, dan input panjang
Dengan berbagai lingkungan inferensi, tool pendukung, API, dan chatbot, model ini sangat bernilai sebagai fondasi agen model bahasa generasi berikutnya

Gambaran proyek open source MiniMax-M1

MiniMax-M1 adalah model penalaran hybrid attention skala besar open-weight pertama di dunia, yang menunjukkan keunggulan kuat dan kegunaan praktis dibanding model komersial maupun open model yang ada
Dioptimalkan untuk konteks panjang, penalaran kompleks, dan pemecahan masalah lingkungan perangkat lunak dengan menggabungkan struktur Mixture-of-Experts (MoE) hybrid skala besar dan mekanisme Lightning Attention
Mendukung konteks panjang (hingga 1 juta token) secara efisien, dan secara drastis mengurangi komputasi saat pengujian (25% FLOPs dibanding DeepSeek-R1 pada 100K)
Dengan teknologi RL terbaru, algoritme CISPO yang baru, dan desain hybrid attention, model ini memaksimalkan skalabilitas sekaligus efisiensi penalaran

1. Ringkasan model

MiniMax-M1 dibekali struktur Mixture-of-Experts (MoE) hybrid dan Lightning Attention
Dikembangkan berdasarkan pendahulunya, MiniMax-Text-01 (456 miliar parameter, 45,9 miliar parameter aktif per token)
Mendukung panjang konteks 1 juta token (8 kali ukuran konteks DeepSeek R1)
Lightning Attention secara signifikan mengurangi komputasi saat pengujian (25% dibanding DeepSeek R1)
Cocok untuk tugas yang memerlukan input panjang dan penalaran kompleks
Dilatih melalui RL skala besar untuk berbagai masalah luas seperti penalaran matematis dan rekayasa SW dunia nyata
Menawarkan framework scaling RL khas MiniMax-M1
- Metode CISPO: memperkenalkan algoritme clipping bobot importance sampling yang lebih unggul dibanding metode RL sebelumnya
- Meningkatkan efisiensi dan skalabilitas RL berbasis hybrid attention
Dilatih dan dirilis dalam dua varian model: 40K, 80K thinking budget
Menunjukkan performa unggul dibanding open model berperforma tinggi yang ada seperti DeepSeek-R1 dan Qwen3-235B pada rekayasa SW, penggunaan tool, dan tugas long-context
Memberikan fondasi untuk membangun agen model bahasa generasi berikutnya guna menyelesaikan tantangan dunia nyata

2. Evaluasi

Poin utama hasil benchmark

Mencapai level SOTA di bidang matematika, kode, rekayasa SW, dan konteks panjang
Secara umum meraih skor lebih tinggi dibanding open model lain, terutama menunjukkan daya saing yang berbeda pada benchmark perangkat lunak (SWE-bench) dan long-context
Contoh metrik yang menonjol
- SWE-bench: 56.0(M1-80k) / 34.4(Qwen3) / 49.2(DeepSeek R1)
- OpenAI-MRCR(128k): 73.4(M1-80k) / 27.7(Qwen3) / 35.8(DeepSeek R1)
- Tangguh pada tugas relevan pengembangan SW seperti LiveCodeBench dan FullStackBench
Lingkungan eksekusi: dievaluasi pada temperature 1.0, top_p 0.95
Untuk benchmark seperti SWE-bench dan TAU-bench, evaluasi dilakukan berdasarkan prosedur dan konfigurasi internal (misalnya lokalisasi dua tahap berbasis file, tanpa penggunaan embedding)

3. Panduan penggunaan model MiniMax-M1

Pengaturan yang direkomendasikan untuk performa optimal

3.1. Parameter inferensi

Temperature: 1.0
Top_p: 0.95
Kombinasi ini menyediakan lingkungan yang menjaga keragaman teks sekaligus konsistensi logis

3.2. System prompt

Tugas umum: "You are a helpful assistant."
Pengembangan web: menyediakan prompt khusus untuk pekerjaan halaman web kompleks seperti menghasilkan kode UI terpadu
Penalaran matematis: uraikan langkah demi langkah lalu tuliskan jawaban akhir di dalam \boxed{}

4. Panduan deployment

Model MiniMax-M1-40k dan MiniMax-M1-80k dapat diunduh dari HuggingFace
Untuk layanan produksi, deployment berbasis vLLM direkomendasikan
- Cocok untuk serving model skala besar berkat manajemen memori yang efisien, pemrosesan batch yang unggul, dan optimisasi performa
Deployment terpisah berbasis Transformers juga didukung

5. Function calling (antarmuka fungsional)

MiniMax-M1 mendukung fitur function calling
- Saat fungsi eksternal diperlukan, parameter akan otomatis dihasilkan dalam format terstruktur
- Menyediakan panduan function calling

6. Chatbot & API

MiniMax Chatbot: menyediakan antarmuka chat yang juga mencakup pencarian online
API: menyediakan API online untuk developer serta tool pemanfaatan developer seperti MiniMax MCP Server
- Termasuk sintesis video, gambar, dan suara berbasis AI, serta voice cloning

1 komentar

GN⁺ 2025-06-19

Komentar Hacker News

Kalau penasaran perlu apa untuk menjalankan ini, dibutuhkan 8 buah H200 141GB dan harganya sekitar 250 ribu dolar
diskusi GitHub / info harga produk di eBay
- Penasaran apakah ini tidak bisa dijalankan dengan Mac Studio 512GB, karena sekitar 8.500 dolar seharusnya cukup
- Itu untuk kasus quantization penuh; kalau dijalankan dengan Q4 atau Q8, bisa berjalan di perangkat seharga di bawah 10 ribu dolar
- Penasaran berapa jumlah parameter model ini
Dikatakan bahwa minggu ini adalah 'launch week' MiniMax
Mereka merilis M1 pada hari Senin, lalu Hailuo 2 pada hari Selasa
kabar terkait model Tiongkok
Belum jelas apakah pengumuman seperti ini akan terus berlanjut sepanjang minggu, dan untuk saat ini perusahaan ini terutama dikenal lewat LLM dan model video
Pengumuman resmi bisa dilihat di X MiniMax (dulu Twitter)
Selain itu, laporan teknis MiniMax M1 juga bermanfaat
PDF laporan teknis
Memang bukan model open-weight SOTA, tetapi mereka membuat klaim yang sangat menarik dan besar soal lightning attention dan varian GRPO (CISPO)
(Saya tidak punya hubungan apa pun dengan perusahaan ini, hanya berbagi info yang saya dapat)
- Kalau Senin M1 dan Selasa Hailuo 2, akan lucu kalau mereka menamainya seperti chip Apple: M1, M1 Pro, M1 Ultra
Saat melihat kalimat "We publicly release MiniMax-M1 at this https url" di makalah arXiv, saya jadi suka perusahaan ini karena ternyata yang dibuka benar-benar kode nyata, bukan repositori kosong
Menurut saya
- Dari LinkedIn tampaknya ini perusahaan berbasis Singapura, dan rasanya hambatan masuk untuk membuat LLM bagus tidak terlalu besar
- Berkat model open-weight dan perkembangan Strix Halo / Ryzen AI Max, saya optimistis dalam beberapa tahun ke depan LLM yang bagus bisa dijalankan secara lokal dengan murah
- Ke depan rasanya menjalankan model lokal akan jadi hal yang tak terelakkan, dan saya merasa antusias sekaligus khawatir
  Kalau ada pakar tepercaya atau orang yang membahas area ini dengan menarik, saya ingin diperkenalkan
- Tidak seperti yang tertulis di LinkedIn, sebenarnya ini perusahaan berbasis Shanghai
- Saya melihat post Twitter yang menyebut MiniMax melatih model ini dengan anggaran sekitar 500 ribu dolar
  
  Melatih RL (reinforcement learning) dengan biaya 534.700 dolar
  Saya penasaran bagaimana itu bisa dilakukan dengan biaya seperti itu
- Perusahaan ini memang perusahaan Tiongkok yang berbasis di Shanghai
  Mereka juga berencana melantai di Bursa Efek Hong Kong (HKEX) dalam waktu dekat
  artikel terkait
Hal ini tidak disebutkan secara jelas di halaman resmi, tetapi MiniMax adalah perusahaan Tiongkok
lihat Wikipedia
- Banyak orang tahu MiniMax adalah perusahaan Tiongkok karena nama generator video mereka, 'Hailuo', sangat terasa nuansa Tiongkoknya dan sampai sekarang mereka terkenal karena itu
- Timbul pertanyaan apakah memang perlu menyatakan di halaman proyek resmi mereka bahwa mereka adalah perusahaan Tiongkok
Nama model seperti ini seharusnya bisa dibuat lebih baik
Terdengar seperti prosesor Mac Studio
- Saya tahu algoritma Minimax
  Itu diambil dari nama algoritma AI klasik yang sangat terkenal
- Mac Anda dibuat oleh 'Apple', yang namanya juga berasal dari jenis buah apel sungguhan
- Ini mengingatkan saya pada anjing saya yang sudah lama hilang bernama Max; menurut saya namanya benar-benar buruk, sampai nyaris kriminal
Di makalah tertulis, "In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention"
Artinya, 87,5% keseluruhannya adalah linear attention, dan 12,5% adalah full attention
Sebenarnya istilah 'linear attention' itu membingungkan
softmax attention adalah cara perutean informasi; saat menghitung token k, ia menerima informasi dari 1~k, tetapi harus melewati kanal berukuran tetap
Sementara itu, linear attention hanya punya 'register bank' berukuran tetap di setiap layer
Sulit dibilang itu benar-benar attention; selain kompatibel dengan komputasi layer-at-once, tidak ada banyak hal yang menonjol
Ada kabar bahwa MiniMax sedang memunculkan rumor soal IPO
artikel terkait
Jika model sebesar ini dilatih tanpa infrastruktur cloud Barat, saya penasaran seperti apa struktur pemrosesan tokennya
- Dilatih selama 3 minggu dengan 512 GPU H800, dan biayanya sekitar 500 ribu dolar
  lihat xcancel
- Menggunakan sneakernet (pemindahan fisik)

MiniMax-M1 open-weight, model penalaran hybrid attention skala besar

Gambaran proyek open source MiniMax-M1

1. Ringkasan model

2. Evaluasi

Poin utama hasil benchmark

3. Panduan penggunaan model MiniMax-M1

Pengaturan yang direkomendasikan untuk performa optimal

3.1. Parameter inferensi

3.2. System prompt

4. Panduan deployment

5. Function calling (antarmuka fungsional)

6. Chatbot & API

Bacaan terkait

1 komentar

Komentar Hacker News