5 poin oleh GN⁺ 2025-06-19 | 1 komentar | Bagikan ke WhatsApp
  • MiniMax-M1 adalah model penalaran berbasis hybrid attention skala besar open-weight pertama di dunia
  • Dengan struktur hybrid MoE berskala 456 miliar parameter dan mekanisme Lightning Attention, model ini unggul dalam menangani konteks panjang
  • Pembelajaran berbasis RL dan penerapan algoritme CISPO memungkinkan penyelesaian beragam masalah secara efisien
  • Pada benchmark, dibandingkan dengan DeepSeek-R1, Qwen3-235B dan lainnya, model ini menunjukkan performa unggul pada rekayasa SW yang kompleks, penggunaan tool, dan input panjang
  • Dengan berbagai lingkungan inferensi, tool pendukung, API, dan chatbot, model ini sangat bernilai sebagai fondasi agen model bahasa generasi berikutnya

Gambaran proyek open source MiniMax-M1

  • MiniMax-M1 adalah model penalaran hybrid attention skala besar open-weight pertama di dunia, yang menunjukkan keunggulan kuat dan kegunaan praktis dibanding model komersial maupun open model yang ada
  • Dioptimalkan untuk konteks panjang, penalaran kompleks, dan pemecahan masalah lingkungan perangkat lunak dengan menggabungkan struktur Mixture-of-Experts (MoE) hybrid skala besar dan mekanisme Lightning Attention
  • Mendukung konteks panjang (hingga 1 juta token) secara efisien, dan secara drastis mengurangi komputasi saat pengujian (25% FLOPs dibanding DeepSeek-R1 pada 100K)
  • Dengan teknologi RL terbaru, algoritme CISPO yang baru, dan desain hybrid attention, model ini memaksimalkan skalabilitas sekaligus efisiensi penalaran

1. Ringkasan model

  • MiniMax-M1 dibekali struktur Mixture-of-Experts (MoE) hybrid dan Lightning Attention
  • Dikembangkan berdasarkan pendahulunya, MiniMax-Text-01 (456 miliar parameter, 45,9 miliar parameter aktif per token)
  • Mendukung panjang konteks 1 juta token (8 kali ukuran konteks DeepSeek R1)
  • Lightning Attention secara signifikan mengurangi komputasi saat pengujian (25% dibanding DeepSeek R1)
  • Cocok untuk tugas yang memerlukan input panjang dan penalaran kompleks
  • Dilatih melalui RL skala besar untuk berbagai masalah luas seperti penalaran matematis dan rekayasa SW dunia nyata
  • Menawarkan framework scaling RL khas MiniMax-M1
    • Metode CISPO: memperkenalkan algoritme clipping bobot importance sampling yang lebih unggul dibanding metode RL sebelumnya
    • Meningkatkan efisiensi dan skalabilitas RL berbasis hybrid attention
  • Dilatih dan dirilis dalam dua varian model: 40K, 80K thinking budget
  • Menunjukkan performa unggul dibanding open model berperforma tinggi yang ada seperti DeepSeek-R1 dan Qwen3-235B pada rekayasa SW, penggunaan tool, dan tugas long-context
  • Memberikan fondasi untuk membangun agen model bahasa generasi berikutnya guna menyelesaikan tantangan dunia nyata

2. Evaluasi

Poin utama hasil benchmark

  • Mencapai level SOTA di bidang matematika, kode, rekayasa SW, dan konteks panjang
  • Secara umum meraih skor lebih tinggi dibanding open model lain, terutama menunjukkan daya saing yang berbeda pada benchmark perangkat lunak (SWE-bench) dan long-context
  • Contoh metrik yang menonjol
    • SWE-bench: 56.0(M1-80k) / 34.4(Qwen3) / 49.2(DeepSeek R1)
    • OpenAI-MRCR(128k): 73.4(M1-80k) / 27.7(Qwen3) / 35.8(DeepSeek R1)
    • Tangguh pada tugas relevan pengembangan SW seperti LiveCodeBench dan FullStackBench
  • Lingkungan eksekusi: dievaluasi pada temperature 1.0, top_p 0.95
  • Untuk benchmark seperti SWE-bench dan TAU-bench, evaluasi dilakukan berdasarkan prosedur dan konfigurasi internal (misalnya lokalisasi dua tahap berbasis file, tanpa penggunaan embedding)

3. Panduan penggunaan model MiniMax-M1

Pengaturan yang direkomendasikan untuk performa optimal

3.1. Parameter inferensi

  • Temperature: 1.0
  • Top_p: 0.95
    Kombinasi ini menyediakan lingkungan yang menjaga keragaman teks sekaligus konsistensi logis

3.2. System prompt

  • Tugas umum: "You are a helpful assistant."
  • Pengembangan web: menyediakan prompt khusus untuk pekerjaan halaman web kompleks seperti menghasilkan kode UI terpadu
  • Penalaran matematis: uraikan langkah demi langkah lalu tuliskan jawaban akhir di dalam \boxed{}

4. Panduan deployment

  • Model MiniMax-M1-40k dan MiniMax-M1-80k dapat diunduh dari HuggingFace
  • Untuk layanan produksi, deployment berbasis vLLM direkomendasikan
    • Cocok untuk serving model skala besar berkat manajemen memori yang efisien, pemrosesan batch yang unggul, dan optimisasi performa
  • Deployment terpisah berbasis Transformers juga didukung

5. Function calling (antarmuka fungsional)

  • MiniMax-M1 mendukung fitur function calling
    • Saat fungsi eksternal diperlukan, parameter akan otomatis dihasilkan dalam format terstruktur
    • Menyediakan panduan function calling

6. Chatbot & API

  • MiniMax Chatbot: menyediakan antarmuka chat yang juga mencakup pencarian online
  • API: menyediakan API online untuk developer serta tool pemanfaatan developer seperti MiniMax MCP Server
    • Termasuk sintesis video, gambar, dan suara berbasis AI, serta voice cloning

1 komentar

 
GN⁺ 2025-06-19
Komentar Hacker News
  • Kalau penasaran perlu apa untuk menjalankan ini, dibutuhkan 8 buah H200 141GB dan harganya sekitar 250 ribu dolar
    diskusi GitHub / info harga produk di eBay

    • Penasaran apakah ini tidak bisa dijalankan dengan Mac Studio 512GB, karena sekitar 8.500 dolar seharusnya cukup
    • Itu untuk kasus quantization penuh; kalau dijalankan dengan Q4 atau Q8, bisa berjalan di perangkat seharga di bawah 10 ribu dolar
    • Penasaran berapa jumlah parameter model ini
  • Dikatakan bahwa minggu ini adalah 'launch week' MiniMax
    Mereka merilis M1 pada hari Senin, lalu Hailuo 2 pada hari Selasa
    kabar terkait model Tiongkok
    Belum jelas apakah pengumuman seperti ini akan terus berlanjut sepanjang minggu, dan untuk saat ini perusahaan ini terutama dikenal lewat LLM dan model video
    Pengumuman resmi bisa dilihat di X MiniMax (dulu Twitter)
    Selain itu, laporan teknis MiniMax M1 juga bermanfaat
    PDF laporan teknis
    Memang bukan model open-weight SOTA, tetapi mereka membuat klaim yang sangat menarik dan besar soal lightning attention dan varian GRPO (CISPO)
    (Saya tidak punya hubungan apa pun dengan perusahaan ini, hanya berbagi info yang saya dapat)

    • Kalau Senin M1 dan Selasa Hailuo 2, akan lucu kalau mereka menamainya seperti chip Apple: M1, M1 Pro, M1 Ultra
  • Saat melihat kalimat "We publicly release MiniMax-M1 at this https url" di makalah arXiv, saya jadi suka perusahaan ini karena ternyata yang dibuka benar-benar kode nyata, bukan repositori kosong

  • Menurut saya

    • Dari LinkedIn tampaknya ini perusahaan berbasis Singapura, dan rasanya hambatan masuk untuk membuat LLM bagus tidak terlalu besar
    • Berkat model open-weight dan perkembangan Strix Halo / Ryzen AI Max, saya optimistis dalam beberapa tahun ke depan LLM yang bagus bisa dijalankan secara lokal dengan murah
    • Ke depan rasanya menjalankan model lokal akan jadi hal yang tak terelakkan, dan saya merasa antusias sekaligus khawatir
      Kalau ada pakar tepercaya atau orang yang membahas area ini dengan menarik, saya ingin diperkenalkan
    • Tidak seperti yang tertulis di LinkedIn, sebenarnya ini perusahaan berbasis Shanghai
    • Saya melihat post Twitter yang menyebut MiniMax melatih model ini dengan anggaran sekitar 500 ribu dolar

      Melatih RL (reinforcement learning) dengan biaya 534.700 dolar
      Saya penasaran bagaimana itu bisa dilakukan dengan biaya seperti itu

    • Perusahaan ini memang perusahaan Tiongkok yang berbasis di Shanghai
      Mereka juga berencana melantai di Bursa Efek Hong Kong (HKEX) dalam waktu dekat
      artikel terkait
  • Hal ini tidak disebutkan secara jelas di halaman resmi, tetapi MiniMax adalah perusahaan Tiongkok
    lihat Wikipedia

    • Banyak orang tahu MiniMax adalah perusahaan Tiongkok karena nama generator video mereka, 'Hailuo', sangat terasa nuansa Tiongkoknya dan sampai sekarang mereka terkenal karena itu
    • Timbul pertanyaan apakah memang perlu menyatakan di halaman proyek resmi mereka bahwa mereka adalah perusahaan Tiongkok
  • Nama model seperti ini seharusnya bisa dibuat lebih baik
    Terdengar seperti prosesor Mac Studio

    • Saya tahu algoritma Minimax
      Itu diambil dari nama algoritma AI klasik yang sangat terkenal
    • Mac Anda dibuat oleh 'Apple', yang namanya juga berasal dari jenis buah apel sungguhan
    • Ini mengingatkan saya pada anjing saya yang sudah lama hilang bernama Max; menurut saya namanya benar-benar buruk, sampai nyaris kriminal
  • Di makalah tertulis, "In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention"
    Artinya, 87,5% keseluruhannya adalah linear attention, dan 12,5% adalah full attention
    Sebenarnya istilah 'linear attention' itu membingungkan
    softmax attention adalah cara perutean informasi; saat menghitung token k, ia menerima informasi dari 1~k, tetapi harus melewati kanal berukuran tetap
    Sementara itu, linear attention hanya punya 'register bank' berukuran tetap di setiap layer
    Sulit dibilang itu benar-benar attention; selain kompatibel dengan komputasi layer-at-once, tidak ada banyak hal yang menonjol

  • Ada kabar bahwa MiniMax sedang memunculkan rumor soal IPO
    artikel terkait

  • Jika model sebesar ini dilatih tanpa infrastruktur cloud Barat, saya penasaran seperti apa struktur pemrosesan tokennya

    • Dilatih selama 3 minggu dengan 512 GPU H800, dan biayanya sekitar 500 ribu dolar
      lihat xcancel
    • Menggunakan sneakernet (pemindahan fisik)