7 poin oleh GN⁺ 2026-02-13 | 1 komentar | Bagikan ke WhatsApp
  • Model ini meningkatkan kemampuan menjalankan tugas kompleks di lingkungan nyata melalui pelatihan skala besar berbasis reinforcement learning, dan mencatat performa tingkat tertinggi di area bernilai ekonomi tinggi seperti coding, pencarian, dan pekerjaan kantor
  • Mencapai 80.2% di SWE-Bench Verified, 51.3% di Multi-SWE-Bench, dan 76.3% di BrowseComp, serta menunjukkan kecepatan 37% lebih cepat dibanding generasi sebelumnya
  • Dapat dioperasikan dengan biaya rendah $1 per jam (berdasarkan 100TPS), dengan performa yang setara dengan Claude Opus 4.6
  • Memperkuat kemampuan berpikir terstruktur, pencarian efisien, dan penulisan dokumen setingkat ahli di seluruh tugas coding, pencarian, dan pekerjaan kantor
  • Bahkan di internal MiniMax, model ini menjalankan 30% dari seluruh pekerjaan secara otomatis, menangani 80% pembuatan kode, dan membuktikan peningkatan produktivitas nyata

Gambaran M2.5 dan performa utama

  • M2.5 adalah model yang dilatih dengan reinforcement learning di ratusan ribu lingkungan nyata yang kompleks, mencapai tingkat SOTA dalam coding, penggunaan alat, pencarian, dan pekerjaan kantor
    • Mencatat 80.2% di SWE-Bench Verified, 51.3% di Multi-SWE-Bench, dan 76.3% di BrowseComp (termasuk manajemen konteks)
  • Dalam evaluasi SWE-Bench Verified, pekerjaan diselesaikan dengan kecepatan 37% lebih cepat dibanding M2.1, serta mencapai kecepatan pemrosesan yang sama dengan Claude Opus 4.6
  • Dapat dioperasikan dengan $1 per jam pada 100TPS dan $0.3 per jam pada 50TPS, menjadikannya model yang sangat efisien secara biaya

Performa coding

  • Mencapai tingkat SOTA dalam tugas coding multibahasa, khususnya menunjukkan performa unggul di lebih dari 10 bahasa (Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)
  • Memiliki struktur berpikir ala arsitek yang melakukan desain sistem, penyusunan UI, dan dekomposisi fungsi sebelum menulis kode
  • Dilatih di lebih dari 200.000 lingkungan nyata, sehingga mendukung bukan hanya perbaikan bug tetapi juga seluruh siklus hidup pengembangan (desain → pengembangan → iterasi fitur → pengujian)
  • Pada benchmark VIBE-Pro, performanya setara dengan Opus 4.5, dan di SWE-Bench Verified
    • Droid: 79.7(M2.5) > 78.9(Opus 4.6)
    • OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)

Pencarian dan pemanggilan alat

  • Mencapai performa terbaik di industri pada BrowseComp, Wide Search, dan lainnya
  • Memverifikasi kemampuan pencarian setingkat ahli dunia nyata melalui RISE(Realistic Interactive Search Evaluation)
  • Menghasilkan hasil yang sama dengan 20% lebih sedikit putaran pencarian dibanding generasi sebelumnya, sehingga efisiensi token meningkat
  • Menghasilkan hasil dalam tugas agent kompleks melalui jalur eksplorasi yang akurat dan proses penalaran yang efisien

Kemampuan pekerjaan kantor

  • Membangun data dan memasukkan umpan balik melalui kolaborasi dengan pakar keuangan, hukum, dan ilmu sosial
  • Memperkuat kemampuan menjalankan dokumen profesional dan pemodelan keuangan di Word, PowerPoint, Excel, dan lainnya
  • Mencatat tingkat kemenangan rata-rata 59.0% pada framework evaluasi internal GDPval-MM
  • Memverifikasi efisiensi kerja nyata dengan mengukur langsung peningkatan produktivitas terhadap biaya token

Efisiensi dan kecepatan

  • Kecepatan pemrosesan dasar 100TPS, sekitar 2x lebih cepat dibanding model lain
  • Berdasarkan SWE-Bench Verified
    • M2.5: rata-rata 3.52M token, 22.8 menit
    • M2.1: 3.72M token, 31.3 menit
    • Peningkatan kecepatan 37%, setara dengan Claude Opus 4.6(22.9 menit)
    • Biayanya setara 10% dari Opus 4.6

Struktur biaya

  • Menyediakan dua versi: M2.5-Lightning(100TPS), M2.5(50TPS)
    • Lightning: input $0.3 per 1 juta token, output $2.4 per 1 juta token
    • M2.5: setengah dari tarif di atas
  • Biaya output setara 1/10~1/20 dari Opus, Gemini 3 Pro, dan GPT-5
  • Menjalankan terus-menerus selama 1 jam pada 100TPS memerlukan $1, dan pada 50TPS memerlukan $0.3
  • Dengan $10,000 per tahun, 4 instance dapat dijalankan penuh waktu, cocok untuk operasi agent skala besar

Kecepatan peningkatan model

  • Dalam tiga setengah bulan, MiniMax merilis M2 → M2.1 → M2.5 secara beruntun, dengan kecepatan peningkatan yang lebih cepat daripada kelompok model pesaing (Claude, GPT, Gemini)
  • Mencatat laju peningkatan performa yang curam di SWE-Bench Verified

Perluasan reinforcement learning (RL Scaling)

  • Membangun ratusan ribu lingkungan RL untuk digunakan dalam pelatihan model
  • Mengembangkan sendiri framework RL agent Forge
    • Memisahkan sepenuhnya engine pelatihan dan inferensi dari agent
    • Optimasi penjadwalan asinkron dan strategi penggabungan tree meningkatkan kecepatan pelatihan 40x
  • Menggunakan algoritma CISPO untuk memastikan stabilitas model MoE skala besar
  • Memantau kualitas bahkan dalam konteks panjang melalui mekanisme reward berbasis proses
  • Memperkenalkan sistem evaluasi waktu kerja untuk menyeimbangkan kecerdasan dan kecepatan respons

Integrasi MiniMax Agent

  • M2.5 terintegrasi penuh ke MiniMax Agent untuk menghadirkan pengalaman agent setingkat staf profesional
  • Memuat otomatis Office Skills (Word, PowerPoint, Excel, dan lainnya) untuk meningkatkan kualitas dokumen
  • Pengguna dapat menggabungkan Office Skills dengan pengetahuan profesional spesifik industri untuk membuat Expert kustom
    • Contoh: penulisan otomatis laporan riset, pembuatan dan verifikasi otomatis model keuangan
  • Saat ini sudah ada lebih dari 10.000 Expert yang dibangun dan jumlahnya terus bertambah cepat
  • Di internal MiniMax, M2.5 secara otomatis menjalankan 30% dari seluruh pekerjaan,
    • Digunakan di seluruh divisi termasuk R&D, produk, penjualan, SDM, dan keuangan
    • 80% dari kode commit baru adalah kode yang dihasilkan M2.5

Lampiran: ringkasan metode evaluasi

  • Menggunakan berbagai benchmark internal dan eksternal seperti SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC, Finance Modeling, dan lainnya
  • Semua pengujian dihitung dengan pipeline terpadu dan nilai rata-rata dari beberapa kali eksekusi berulang
  • Lingkungan evaluasi mencakup CPU 8-core, memori 16GB, batas 7200 detik, dan set alat standar

1 komentar

 
GN⁺ 2026-02-13
Komentar Hacker News
  • Semoga makin banyak model yang lebih bagus dan lebih murah bermunculan
    Persaingan yang aktif akan membuat pasar lebih sehat
    Namun hasil benchmark tetap perlu dilihat dengan hati-hati
    MiniMax 2.1 lumayan, tapi sulit dibilang “cerdas”
    Terutama karena ada kecenderungan memanipulasi codebase demi lolos tes
    Bahkan kadang laporan dibuat seolah tes yang gagal itu berhasil
    Menurut metrik Artificial Analysis, skor coding MiniMax 2.1 adalah 33, terpaut jauh dari model-model papan atas

    • Saya juga melihat masalah serupa di berbagai LLM lain
      Saat diminta menyelesaikan soal algoritma, kalau tidak bisa, mereka malah meng-hardcode test case
      DeepSeek juga sempat berperilaku seperti ini
    • Saya belum pernah pakai MiniMax, tapi saya melihat masalah yang sama di GPT-5.2-Codex
      Alih-alih memperbaiki type error yang sederhana, model ini terlalu sering memakai cast atau Any untuk menutupi masalah
      Jadi bukannya memperbaiki, malah menghindari type checking
    • MiniMax 2.1 terlalu banyak error untuk pekerjaan parsing data saya
      Sebaliknya, MiMo v2 Flash punya value for money yang jauh lebih baik
  • Gambar pelican-nya masih bisa dikenali, tetapi kualitas akhirnya rendah
    Terutama karena batang pada frame sepeda hilang
    Gambar terkait

    • Tidak adanya fork depan malah mungkin lebih baik
      Kebanyakan model justru membuat struktur roda depan yang tidak mungkin dikendalikan, jadi hasil kali ini terasa seperti penanda jujur untuk “masalah yang belum terselesaikan”
      Mirip seperti meninggalkan komentar “TODO” di kode
      Kalau melihat panjang kaki pelican, posturnya malah secara anatomi cukup alami
    • Coba saja minta model menggambar gurita yang naik sepeda, sepertinya itu akan jauh lebih sulit
  • MiniMax M2.1 adalah model yang paling sering saya gunakan
    Cepat, murah, dan sangat bagus dalam tool calling
    Untuk development saya pakai Antigravity + Claude, tetapi dalam workflow saya biasanya memulai dari MiniMax
    Untuk pekerjaan kode saya pakai GLM, untuk analisis bahasa Inggris saya pakai Kimi K2.5
    Saya belum melakukan self-hosting, tetapi saya lebih suka model OSS dari Tiongkok
    Karena ada kemungkinan bisa saya hosting sendiri di masa depan
    openclaw assistant saya juga berjalan di atas MiniMax, dan menurut saya ini punya keseimbangan terbaik antara kecepatan, kualitas, dan biaya
    Jika dijalankan 1 jam pada 100 tokens/sec biayanya $1, dan pada 50 tokens/sec sekitar $0.30

    • Model seperti ini bagus karena menahan dominasi laboratorium besar
      Saya penasaran, apakah dipakai lewat API atau lewat paket langganan bulanan
      Kalau paket bulanan, saya juga ingin tahu apakah ada pembatasan kecepatan atau reset
      Saya juga merasa MM2.1 paling ekonomis, sementara K2.5 paling kuat secara keseluruhan
    • Harganya sangat murah sampai mengejutkan
      Saya harus segera mencarinya di OpenRouter
  • Benchmark-nya terlihat terlalu bagus, jadi terasa mencurigakan
    Metode pelatihannya memang menarik, tetapi belum jelas apakah benar-benar inovatif
    Saya menilai reliabilitas benchmark berdasarkan karakteristik objektif model dan pengalaman sebelumnya
    Misalnya, Kimi K2.5 memang terasa seimbang dan cerdas dalam penggunaan nyata, jadi angkanya pun terasa bisa dipercaya
    GLM 5 dulu pernah merilis benchmark yang berlebihan, tetapi kali ini ukuran model dan arsitekturnya meningkat besar, jadi masih mungkin
    Sebaliknya, MiniMax selama ini selalu rapuh dan mudah terjebak dalam loop error
    Bahkan kode JavaScript sederhana pun sering dirusak, dan ukuran modelnya juga terlalu kecil, jadi klaim performa kali ini sulit dipercaya

  • M2 adalah contoh klasik penggelembungan skor benchmark
    Ada kesenjangan besar antara hasil SWE-B dan tugas nyata yang belum pernah dilatih
    Versi 2.5 rencananya akan ditambahkan ke power ranking brokk.ai

  • Perusahaan kami hanya mengizinkan OpenAI, Anthropic, dan Google LLM di Github Copilot
    Akibatnya, kredit habis hanya dalam seminggu
    Akan lebih baik kalau bisa memakai LLM yang lebih beragam

  • Saya sempat mencoba M2.5 di OpenCode untuk tugas sederhana, dan hasilnya sangat buruk
    Padahal hanya skrip mandiri sekitar 250 baris, tetapi hal yang bisa diselesaikan Opus 4.6 hanya dengan petunjuk kecil tidak bisa diselesaikan M2.5 tanpa prompt yang sangat rinci
    Tautan kode yang diuji

  • Hal yang menarik adalah, perusahaan menengah (Tier-2) hampir tidak merilis model pesaing
    Pada akhirnya ini menjadi persaingan antara empat lab besar dan lab dari Tiongkok

    • Meski begitu, Mistral bisa dianggap sebagai pengecualian
  • Akan bagus jika ada LLM per bahasa yang bisa berjalan di komputer biasa
    Misalnya model yang hanya dilatih pada Python 3+ dan framework tertentu, serta repositori kode tertentu
    Dengan begitu, model itu bisa dipisahkan dari model untuk pencarian internet dan mungkin menghemat biaya

    • Pendekatan distillation seperti itu mungkin saja, tetapi saya rasa pelatihan multibahasa sangat membantu performa LLM
  • Katanya model ini biayanya $1 per jam, yang terasa mirip dengan paket Claude Code $200/bulan yang saya pakai
    Dalam praktiknya saya menjalankan sekitar 3 instance paralel per hari selama total sekitar 60 jam per minggu
    Kalau memang ada penggunaan yang cocok untuk berjalan terus 24/7, ini akan menarik, tetapi untuk saat ini saya belum melihatnya
    Saya penasaran apakah ada yang benar-benar memakainya seperti itu