Peluncuran MiniMax M2.5 - model yang dirancang untuk produktivitas kerja nyata

(minimax.io)

7 poin oleh GN⁺ 2026-02-13 | 1 komentar | Bagikan ke WhatsApp

Model ini meningkatkan kemampuan menjalankan tugas kompleks di lingkungan nyata melalui pelatihan skala besar berbasis reinforcement learning, dan mencatat performa tingkat tertinggi di area bernilai ekonomi tinggi seperti coding, pencarian, dan pekerjaan kantor
Mencapai 80.2% di SWE-Bench Verified, 51.3% di Multi-SWE-Bench, dan 76.3% di BrowseComp, serta menunjukkan kecepatan 37% lebih cepat dibanding generasi sebelumnya
Dapat dioperasikan dengan biaya rendah $1 per jam (berdasarkan 100TPS), dengan performa yang setara dengan Claude Opus 4.6
Memperkuat kemampuan berpikir terstruktur, pencarian efisien, dan penulisan dokumen setingkat ahli di seluruh tugas coding, pencarian, dan pekerjaan kantor
Bahkan di internal MiniMax, model ini menjalankan 30% dari seluruh pekerjaan secara otomatis, menangani 80% pembuatan kode, dan membuktikan peningkatan produktivitas nyata

Gambaran M2.5 dan performa utama

M2.5 adalah model yang dilatih dengan reinforcement learning di ratusan ribu lingkungan nyata yang kompleks, mencapai tingkat SOTA dalam coding, penggunaan alat, pencarian, dan pekerjaan kantor
- Mencatat 80.2% di SWE-Bench Verified, 51.3% di Multi-SWE-Bench, dan 76.3% di BrowseComp (termasuk manajemen konteks)
Dalam evaluasi SWE-Bench Verified, pekerjaan diselesaikan dengan kecepatan 37% lebih cepat dibanding M2.1, serta mencapai kecepatan pemrosesan yang sama dengan Claude Opus 4.6
Dapat dioperasikan dengan $1 per jam pada 100TPS dan $0.3 per jam pada 50TPS, menjadikannya model yang sangat efisien secara biaya

Performa coding

Mencapai tingkat SOTA dalam tugas coding multibahasa, khususnya menunjukkan performa unggul di lebih dari 10 bahasa (Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)
Memiliki struktur berpikir ala arsitek yang melakukan desain sistem, penyusunan UI, dan dekomposisi fungsi sebelum menulis kode
Dilatih di lebih dari 200.000 lingkungan nyata, sehingga mendukung bukan hanya perbaikan bug tetapi juga seluruh siklus hidup pengembangan (desain → pengembangan → iterasi fitur → pengujian)
Pada benchmark VIBE-Pro, performanya setara dengan Opus 4.5, dan di SWE-Bench Verified
- Droid: 79.7(M2.5) > 78.9(Opus 4.6)
- OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)

Pencarian dan pemanggilan alat

Mencapai performa terbaik di industri pada BrowseComp, Wide Search, dan lainnya
Memverifikasi kemampuan pencarian setingkat ahli dunia nyata melalui RISE(Realistic Interactive Search Evaluation)
Menghasilkan hasil yang sama dengan 20% lebih sedikit putaran pencarian dibanding generasi sebelumnya, sehingga efisiensi token meningkat
Menghasilkan hasil dalam tugas agent kompleks melalui jalur eksplorasi yang akurat dan proses penalaran yang efisien

Kemampuan pekerjaan kantor

Membangun data dan memasukkan umpan balik melalui kolaborasi dengan pakar keuangan, hukum, dan ilmu sosial
Memperkuat kemampuan menjalankan dokumen profesional dan pemodelan keuangan di Word, PowerPoint, Excel, dan lainnya
Mencatat tingkat kemenangan rata-rata 59.0% pada framework evaluasi internal GDPval-MM
Memverifikasi efisiensi kerja nyata dengan mengukur langsung peningkatan produktivitas terhadap biaya token

Efisiensi dan kecepatan

Kecepatan pemrosesan dasar 100TPS, sekitar 2x lebih cepat dibanding model lain
Berdasarkan SWE-Bench Verified
- M2.5: rata-rata 3.52M token, 22.8 menit
- M2.1: 3.72M token, 31.3 menit
- Peningkatan kecepatan 37%, setara dengan Claude Opus 4.6(22.9 menit)
- Biayanya setara 10% dari Opus 4.6

Struktur biaya

Menyediakan dua versi: M2.5-Lightning(100TPS), M2.5(50TPS)
- Lightning: input $0.3 per 1 juta token, output $2.4 per 1 juta token
- M2.5: setengah dari tarif di atas
Biaya output setara 1/10~1/20 dari Opus, Gemini 3 Pro, dan GPT-5
Menjalankan terus-menerus selama 1 jam pada 100TPS memerlukan $1, dan pada 50TPS memerlukan $0.3
Dengan $10,000 per tahun, 4 instance dapat dijalankan penuh waktu, cocok untuk operasi agent skala besar

Kecepatan peningkatan model

Dalam tiga setengah bulan, MiniMax merilis M2 → M2.1 → M2.5 secara beruntun, dengan kecepatan peningkatan yang lebih cepat daripada kelompok model pesaing (Claude, GPT, Gemini)
Mencatat laju peningkatan performa yang curam di SWE-Bench Verified

Perluasan reinforcement learning (RL Scaling)

Membangun ratusan ribu lingkungan RL untuk digunakan dalam pelatihan model
Mengembangkan sendiri framework RL agent Forge
- Memisahkan sepenuhnya engine pelatihan dan inferensi dari agent
- Optimasi penjadwalan asinkron dan strategi penggabungan tree meningkatkan kecepatan pelatihan 40x
Menggunakan algoritma CISPO untuk memastikan stabilitas model MoE skala besar
Memantau kualitas bahkan dalam konteks panjang melalui mekanisme reward berbasis proses
Memperkenalkan sistem evaluasi waktu kerja untuk menyeimbangkan kecerdasan dan kecepatan respons

Integrasi MiniMax Agent

M2.5 terintegrasi penuh ke MiniMax Agent untuk menghadirkan pengalaman agent setingkat staf profesional
Memuat otomatis Office Skills (Word, PowerPoint, Excel, dan lainnya) untuk meningkatkan kualitas dokumen
Pengguna dapat menggabungkan Office Skills dengan pengetahuan profesional spesifik industri untuk membuat Expert kustom
- Contoh: penulisan otomatis laporan riset, pembuatan dan verifikasi otomatis model keuangan
Saat ini sudah ada lebih dari 10.000 Expert yang dibangun dan jumlahnya terus bertambah cepat
Di internal MiniMax, M2.5 secara otomatis menjalankan 30% dari seluruh pekerjaan,
- Digunakan di seluruh divisi termasuk R&D, produk, penjualan, SDM, dan keuangan
- 80% dari kode commit baru adalah kode yang dihasilkan M2.5

Lampiran: ringkasan metode evaluasi

Menggunakan berbagai benchmark internal dan eksternal seperti SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC, Finance Modeling, dan lainnya
Semua pengujian dihitung dengan pipeline terpadu dan nilai rata-rata dari beberapa kali eksekusi berulang
Lingkungan evaluasi mencakup CPU 8-core, memori 16GB, batas 7200 detik, dan set alat standar

1 komentar

GN⁺ 2026-02-13

Komentar Hacker News

Semoga makin banyak model yang lebih bagus dan lebih murah bermunculan
Persaingan yang aktif akan membuat pasar lebih sehat
Namun hasil benchmark tetap perlu dilihat dengan hati-hati
MiniMax 2.1 lumayan, tapi sulit dibilang “cerdas”
Terutama karena ada kecenderungan memanipulasi codebase demi lolos tes
Bahkan kadang laporan dibuat seolah tes yang gagal itu berhasil
Menurut metrik Artificial Analysis, skor coding MiniMax 2.1 adalah 33, terpaut jauh dari model-model papan atas
- Saya juga melihat masalah serupa di berbagai LLM lain
  Saat diminta menyelesaikan soal algoritma, kalau tidak bisa, mereka malah meng-hardcode test case
  DeepSeek juga sempat berperilaku seperti ini
- Saya belum pernah pakai MiniMax, tapi saya melihat masalah yang sama di GPT-5.2-Codex
  Alih-alih memperbaiki type error yang sederhana, model ini terlalu sering memakai cast atau Any untuk menutupi masalah
  Jadi bukannya memperbaiki, malah menghindari type checking
- MiniMax 2.1 terlalu banyak error untuk pekerjaan parsing data saya
  Sebaliknya, MiMo v2 Flash punya value for money yang jauh lebih baik
Gambar pelican-nya masih bisa dikenali, tetapi kualitas akhirnya rendah
Terutama karena batang pada frame sepeda hilang
Gambar terkait
- Tidak adanya fork depan malah mungkin lebih baik
  Kebanyakan model justru membuat struktur roda depan yang tidak mungkin dikendalikan, jadi hasil kali ini terasa seperti penanda jujur untuk “masalah yang belum terselesaikan”
  Mirip seperti meninggalkan komentar “TODO” di kode
  Kalau melihat panjang kaki pelican, posturnya malah secara anatomi cukup alami
- Coba saja minta model menggambar gurita yang naik sepeda, sepertinya itu akan jauh lebih sulit
MiniMax M2.1 adalah model yang paling sering saya gunakan
Cepat, murah, dan sangat bagus dalam tool calling
Untuk development saya pakai Antigravity + Claude, tetapi dalam workflow saya biasanya memulai dari MiniMax
Untuk pekerjaan kode saya pakai GLM, untuk analisis bahasa Inggris saya pakai Kimi K2.5
Saya belum melakukan self-hosting, tetapi saya lebih suka model OSS dari Tiongkok
Karena ada kemungkinan bisa saya hosting sendiri di masa depan
openclaw assistant saya juga berjalan di atas MiniMax, dan menurut saya ini punya keseimbangan terbaik antara kecepatan, kualitas, dan biaya
Jika dijalankan 1 jam pada 100 tokens/sec biayanya $1, dan pada 50 tokens/sec sekitar $0.30
- Model seperti ini bagus karena menahan dominasi laboratorium besar
  Saya penasaran, apakah dipakai lewat API atau lewat paket langganan bulanan
  Kalau paket bulanan, saya juga ingin tahu apakah ada pembatasan kecepatan atau reset
  Saya juga merasa MM2.1 paling ekonomis, sementara K2.5 paling kuat secara keseluruhan
- Harganya sangat murah sampai mengejutkan
  Saya harus segera mencarinya di OpenRouter
Benchmark-nya terlihat terlalu bagus, jadi terasa mencurigakan
Metode pelatihannya memang menarik, tetapi belum jelas apakah benar-benar inovatif
Saya menilai reliabilitas benchmark berdasarkan karakteristik objektif model dan pengalaman sebelumnya
Misalnya, Kimi K2.5 memang terasa seimbang dan cerdas dalam penggunaan nyata, jadi angkanya pun terasa bisa dipercaya
GLM 5 dulu pernah merilis benchmark yang berlebihan, tetapi kali ini ukuran model dan arsitekturnya meningkat besar, jadi masih mungkin
Sebaliknya, MiniMax selama ini selalu rapuh dan mudah terjebak dalam loop error
Bahkan kode JavaScript sederhana pun sering dirusak, dan ukuran modelnya juga terlalu kecil, jadi klaim performa kali ini sulit dipercaya
M2 adalah contoh klasik penggelembungan skor benchmark
Ada kesenjangan besar antara hasil SWE-B dan tugas nyata yang belum pernah dilatih
Versi 2.5 rencananya akan ditambahkan ke power ranking brokk.ai
Perusahaan kami hanya mengizinkan OpenAI, Anthropic, dan Google LLM di Github Copilot
Akibatnya, kredit habis hanya dalam seminggu
Akan lebih baik kalau bisa memakai LLM yang lebih beragam
Saya sempat mencoba M2.5 di OpenCode untuk tugas sederhana, dan hasilnya sangat buruk
Padahal hanya skrip mandiri sekitar 250 baris, tetapi hal yang bisa diselesaikan Opus 4.6 hanya dengan petunjuk kecil tidak bisa diselesaikan M2.5 tanpa prompt yang sangat rinci
Tautan kode yang diuji
Hal yang menarik adalah, perusahaan menengah (Tier-2) hampir tidak merilis model pesaing
Pada akhirnya ini menjadi persaingan antara empat lab besar dan lab dari Tiongkok
- Meski begitu, Mistral bisa dianggap sebagai pengecualian
Akan bagus jika ada LLM per bahasa yang bisa berjalan di komputer biasa
Misalnya model yang hanya dilatih pada Python 3+ dan framework tertentu, serta repositori kode tertentu
Dengan begitu, model itu bisa dipisahkan dari model untuk pencarian internet dan mungkin menghemat biaya
- Pendekatan distillation seperti itu mungkin saja, tetapi saya rasa pelatihan multibahasa sangat membantu performa LLM
Katanya model ini biayanya $1 per jam, yang terasa mirip dengan paket Claude Code $200/bulan yang saya pakai
Dalam praktiknya saya menjalankan sekitar 3 instance paralel per hari selama total sekitar 60 jam per minggu
Kalau memang ada penggunaan yang cocok untuk berjalan terus 24/7, ini akan menarik, tetapi untuk saat ini saya belum melihatnya
Saya penasaran apakah ada yang benar-benar memakainya seperti itu

Peluncuran MiniMax M2.5 - model yang dirancang untuk produktivitas kerja nyata

Gambaran M2.5 dan performa utama

Performa coding

Pencarian dan pemanggilan alat

Kemampuan pekerjaan kantor

Efisiensi dan kecepatan

Struktur biaya

Kecepatan peningkatan model

Perluasan reinforcement learning (RL Scaling)

Integrasi MiniMax Agent

Lampiran: ringkasan metode evaluasi

Bacaan terkait

1 komentar

Komentar Hacker News