- Model ini meningkatkan kemampuan menjalankan tugas kompleks di lingkungan nyata melalui pelatihan skala besar berbasis reinforcement learning, dan mencatat performa tingkat tertinggi di area bernilai ekonomi tinggi seperti coding, pencarian, dan pekerjaan kantor
- Mencapai 80.2% di SWE-Bench Verified, 51.3% di Multi-SWE-Bench, dan 76.3% di BrowseComp, serta menunjukkan kecepatan 37% lebih cepat dibanding generasi sebelumnya
- Dapat dioperasikan dengan biaya rendah $1 per jam (berdasarkan 100TPS), dengan performa yang setara dengan Claude Opus 4.6
- Memperkuat kemampuan berpikir terstruktur, pencarian efisien, dan penulisan dokumen setingkat ahli di seluruh tugas coding, pencarian, dan pekerjaan kantor
- Bahkan di internal MiniMax, model ini menjalankan 30% dari seluruh pekerjaan secara otomatis, menangani 80% pembuatan kode, dan membuktikan peningkatan produktivitas nyata
Gambaran M2.5 dan performa utama
- M2.5 adalah model yang dilatih dengan reinforcement learning di ratusan ribu lingkungan nyata yang kompleks, mencapai tingkat SOTA dalam coding, penggunaan alat, pencarian, dan pekerjaan kantor
- Mencatat 80.2% di SWE-Bench Verified, 51.3% di Multi-SWE-Bench, dan 76.3% di BrowseComp (termasuk manajemen konteks)
- Dalam evaluasi SWE-Bench Verified, pekerjaan diselesaikan dengan kecepatan 37% lebih cepat dibanding M2.1, serta mencapai kecepatan pemrosesan yang sama dengan Claude Opus 4.6
- Dapat dioperasikan dengan $1 per jam pada 100TPS dan $0.3 per jam pada 50TPS, menjadikannya model yang sangat efisien secara biaya
Performa coding
- Mencapai tingkat SOTA dalam tugas coding multibahasa, khususnya menunjukkan performa unggul di lebih dari 10 bahasa (Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)
- Memiliki struktur berpikir ala arsitek yang melakukan desain sistem, penyusunan UI, dan dekomposisi fungsi sebelum menulis kode
- Dilatih di lebih dari 200.000 lingkungan nyata, sehingga mendukung bukan hanya perbaikan bug tetapi juga seluruh siklus hidup pengembangan (desain → pengembangan → iterasi fitur → pengujian)
- Pada benchmark VIBE-Pro, performanya setara dengan Opus 4.5, dan di SWE-Bench Verified
- Droid: 79.7(M2.5) > 78.9(Opus 4.6)
- OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)
Pencarian dan pemanggilan alat
- Mencapai performa terbaik di industri pada BrowseComp, Wide Search, dan lainnya
- Memverifikasi kemampuan pencarian setingkat ahli dunia nyata melalui RISE(Realistic Interactive Search Evaluation)
- Menghasilkan hasil yang sama dengan 20% lebih sedikit putaran pencarian dibanding generasi sebelumnya, sehingga efisiensi token meningkat
- Menghasilkan hasil dalam tugas agent kompleks melalui jalur eksplorasi yang akurat dan proses penalaran yang efisien
Kemampuan pekerjaan kantor
- Membangun data dan memasukkan umpan balik melalui kolaborasi dengan pakar keuangan, hukum, dan ilmu sosial
- Memperkuat kemampuan menjalankan dokumen profesional dan pemodelan keuangan di Word, PowerPoint, Excel, dan lainnya
- Mencatat tingkat kemenangan rata-rata 59.0% pada framework evaluasi internal GDPval-MM
- Memverifikasi efisiensi kerja nyata dengan mengukur langsung peningkatan produktivitas terhadap biaya token
Efisiensi dan kecepatan
- Kecepatan pemrosesan dasar 100TPS, sekitar 2x lebih cepat dibanding model lain
- Berdasarkan SWE-Bench Verified
- M2.5: rata-rata 3.52M token, 22.8 menit
- M2.1: 3.72M token, 31.3 menit
- Peningkatan kecepatan 37%, setara dengan Claude Opus 4.6(22.9 menit)
- Biayanya setara 10% dari Opus 4.6
Struktur biaya
- Menyediakan dua versi: M2.5-Lightning(100TPS), M2.5(50TPS)
- Lightning: input $0.3 per 1 juta token, output $2.4 per 1 juta token
- M2.5: setengah dari tarif di atas
- Biaya output setara 1/10~1/20 dari Opus, Gemini 3 Pro, dan GPT-5
- Menjalankan terus-menerus selama 1 jam pada 100TPS memerlukan $1, dan pada 50TPS memerlukan $0.3
- Dengan $10,000 per tahun, 4 instance dapat dijalankan penuh waktu, cocok untuk operasi agent skala besar
Kecepatan peningkatan model
- Dalam tiga setengah bulan, MiniMax merilis M2 → M2.1 → M2.5 secara beruntun, dengan kecepatan peningkatan yang lebih cepat daripada kelompok model pesaing (Claude, GPT, Gemini)
- Mencatat laju peningkatan performa yang curam di SWE-Bench Verified
Perluasan reinforcement learning (RL Scaling)
- Membangun ratusan ribu lingkungan RL untuk digunakan dalam pelatihan model
- Mengembangkan sendiri framework RL agent Forge
- Memisahkan sepenuhnya engine pelatihan dan inferensi dari agent
- Optimasi penjadwalan asinkron dan strategi penggabungan tree meningkatkan kecepatan pelatihan 40x
- Menggunakan algoritma CISPO untuk memastikan stabilitas model MoE skala besar
- Memantau kualitas bahkan dalam konteks panjang melalui mekanisme reward berbasis proses
- Memperkenalkan sistem evaluasi waktu kerja untuk menyeimbangkan kecerdasan dan kecepatan respons
Integrasi MiniMax Agent
- M2.5 terintegrasi penuh ke MiniMax Agent untuk menghadirkan pengalaman agent setingkat staf profesional
- Memuat otomatis Office Skills (Word, PowerPoint, Excel, dan lainnya) untuk meningkatkan kualitas dokumen
- Pengguna dapat menggabungkan Office Skills dengan pengetahuan profesional spesifik industri untuk membuat Expert kustom
- Contoh: penulisan otomatis laporan riset, pembuatan dan verifikasi otomatis model keuangan
- Saat ini sudah ada lebih dari 10.000 Expert yang dibangun dan jumlahnya terus bertambah cepat
- Di internal MiniMax, M2.5 secara otomatis menjalankan 30% dari seluruh pekerjaan,
- Digunakan di seluruh divisi termasuk R&D, produk, penjualan, SDM, dan keuangan
- 80% dari kode commit baru adalah kode yang dihasilkan M2.5
Lampiran: ringkasan metode evaluasi
- Menggunakan berbagai benchmark internal dan eksternal seperti SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC, Finance Modeling, dan lainnya
- Semua pengujian dihitung dengan pipeline terpadu dan nilai rata-rata dari beberapa kali eksekusi berulang
- Lingkungan evaluasi mencakup CPU 8-core, memori 16GB, batas 7200 detik, dan set alat standar
1 komentar
Komentar Hacker News
Semoga makin banyak model yang lebih bagus dan lebih murah bermunculan
Persaingan yang aktif akan membuat pasar lebih sehat
Namun hasil benchmark tetap perlu dilihat dengan hati-hati
MiniMax 2.1 lumayan, tapi sulit dibilang “cerdas”
Terutama karena ada kecenderungan memanipulasi codebase demi lolos tes
Bahkan kadang laporan dibuat seolah tes yang gagal itu berhasil
Menurut metrik Artificial Analysis, skor coding MiniMax 2.1 adalah 33, terpaut jauh dari model-model papan atas
Saat diminta menyelesaikan soal algoritma, kalau tidak bisa, mereka malah meng-hardcode test case
DeepSeek juga sempat berperilaku seperti ini
Alih-alih memperbaiki type error yang sederhana, model ini terlalu sering memakai cast atau Any untuk menutupi masalah
Jadi bukannya memperbaiki, malah menghindari type checking
Sebaliknya, MiMo v2 Flash punya value for money yang jauh lebih baik
Gambar pelican-nya masih bisa dikenali, tetapi kualitas akhirnya rendah
Terutama karena batang pada frame sepeda hilang
Gambar terkait
Kebanyakan model justru membuat struktur roda depan yang tidak mungkin dikendalikan, jadi hasil kali ini terasa seperti penanda jujur untuk “masalah yang belum terselesaikan”
Mirip seperti meninggalkan komentar “TODO” di kode
Kalau melihat panjang kaki pelican, posturnya malah secara anatomi cukup alami
MiniMax M2.1 adalah model yang paling sering saya gunakan
Cepat, murah, dan sangat bagus dalam tool calling
Untuk development saya pakai Antigravity + Claude, tetapi dalam workflow saya biasanya memulai dari MiniMax
Untuk pekerjaan kode saya pakai GLM, untuk analisis bahasa Inggris saya pakai Kimi K2.5
Saya belum melakukan self-hosting, tetapi saya lebih suka model OSS dari Tiongkok
Karena ada kemungkinan bisa saya hosting sendiri di masa depan
openclaw assistant saya juga berjalan di atas MiniMax, dan menurut saya ini punya keseimbangan terbaik antara kecepatan, kualitas, dan biaya
Jika dijalankan 1 jam pada 100 tokens/sec biayanya $1, dan pada 50 tokens/sec sekitar $0.30
Saya penasaran, apakah dipakai lewat API atau lewat paket langganan bulanan
Kalau paket bulanan, saya juga ingin tahu apakah ada pembatasan kecepatan atau reset
Saya juga merasa MM2.1 paling ekonomis, sementara K2.5 paling kuat secara keseluruhan
Saya harus segera mencarinya di OpenRouter
Benchmark-nya terlihat terlalu bagus, jadi terasa mencurigakan
Metode pelatihannya memang menarik, tetapi belum jelas apakah benar-benar inovatif
Saya menilai reliabilitas benchmark berdasarkan karakteristik objektif model dan pengalaman sebelumnya
Misalnya, Kimi K2.5 memang terasa seimbang dan cerdas dalam penggunaan nyata, jadi angkanya pun terasa bisa dipercaya
GLM 5 dulu pernah merilis benchmark yang berlebihan, tetapi kali ini ukuran model dan arsitekturnya meningkat besar, jadi masih mungkin
Sebaliknya, MiniMax selama ini selalu rapuh dan mudah terjebak dalam loop error
Bahkan kode JavaScript sederhana pun sering dirusak, dan ukuran modelnya juga terlalu kecil, jadi klaim performa kali ini sulit dipercaya
M2 adalah contoh klasik penggelembungan skor benchmark
Ada kesenjangan besar antara hasil SWE-B dan tugas nyata yang belum pernah dilatih
Versi 2.5 rencananya akan ditambahkan ke power ranking brokk.ai
Perusahaan kami hanya mengizinkan OpenAI, Anthropic, dan Google LLM di Github Copilot
Akibatnya, kredit habis hanya dalam seminggu
Akan lebih baik kalau bisa memakai LLM yang lebih beragam
Saya sempat mencoba M2.5 di OpenCode untuk tugas sederhana, dan hasilnya sangat buruk
Padahal hanya skrip mandiri sekitar 250 baris, tetapi hal yang bisa diselesaikan Opus 4.6 hanya dengan petunjuk kecil tidak bisa diselesaikan M2.5 tanpa prompt yang sangat rinci
Tautan kode yang diuji
Hal yang menarik adalah, perusahaan menengah (Tier-2) hampir tidak merilis model pesaing
Pada akhirnya ini menjadi persaingan antara empat lab besar dan lab dari Tiongkok
Akan bagus jika ada LLM per bahasa yang bisa berjalan di komputer biasa
Misalnya model yang hanya dilatih pada Python 3+ dan framework tertentu, serta repositori kode tertentu
Dengan begitu, model itu bisa dipisahkan dari model untuk pencarian internet dan mungkin menghemat biaya
Katanya model ini biayanya $1 per jam, yang terasa mirip dengan paket Claude Code $200/bulan yang saya pakai
Dalam praktiknya saya menjalankan sekitar 3 instance paralel per hari selama total sekitar 60 jam per minggu
Kalau memang ada penggunaan yang cocok untuk berjalan terus 24/7, ini akan menarik, tetapi untuk saat ini saya belum melihatnya
Saya penasaran apakah ada yang benar-benar memakainya seperti itu