7 poin oleh xguru 2026-04-29 | 2 komentar | Bagikan ke WhatsApp
  • Model omni-modal native yang memproses teks, gambar, video, dan audio secara terpadu dalam arsitektur tunggal, serta dioptimalkan untuk tugas agen
  • Berlisensi MIT sehingga distribusi komersial dan fine-tuning semuanya dimungkinkan tanpa izin terpisah
  • Struktur Sparse MoE memungkinkan inferensi efisien dengan hanya mengaktifkan 15B dari total 310B parameter (versi Pro adalah 1.02T/42B)
  • Hybrid Attention (rasio SWA + GA 5:1, window 128) mendukung konteks hingga 1M token sambil mengurangi kebutuhan penyimpanan KV-cache sekitar 6x
  • Dibekali vision encoder khusus (ViT 729M parameter, hybrid window attention) dan audio encoder (261M parameter, berbasis MiMo-Audio-Tokenizer)
  • Modul Multi-Token Prediction (MTP) dengan 3 layer mempercepat inferensi berbasis speculative decoding dan meningkatkan efisiensi pelatihan RL
  • Dilatih dengan total sekitar 48T token menggunakan FP8 mixed precision, lalu pada tahap pascapemrosesan menerapkan SFT, agent RL skala besar, dan Multi-Teacher On-Policy Distillation (MOPD) untuk meningkatkan performa benchmark agen dan multimodal
    • Pipeline 5 tahap (pra-pelatihan teks → pemanasan projector → pra-pelatihan multimodal → SFT/pascapemrosesan agen → RL/MOPD)
  • Mendukung SGLang (kuantisasi FP8, paralel dp/tp) dan rilis resmi vLLM
  • Tersedia dalam dua versi: Base (256K) dan Full (1M)

2 komentar

 
xguru 2026-04-29

Ini pernah diuji oleh VentureBeat, dan katanya cukup cocok untuk OpenClaw
https://venturebeat.com/ai/…

  • Pada benchmark ClawEval, model Pro mencatat tingkat keberhasilan 63,8% sebagai yang terdepan di ranah open-source
  • Mencapai hasil setara dengan 40–60% lebih sedikit token dibanding Anthropic Claude Opus 4.6, Google Gemini 3.1 Pro, dan OpenAI GPT-5.4
  • MiMo-V2.5 ("Omni") adalah model spesialis multimodal native yang memproses visual, audio, dan teks secara terpadu
  • MiMo-V2.5-Pro ("Agent") dikhususkan untuk "koherensi jangka panjang (long-horizon coherence)" dan software engineering yang kompleks
  • Model Pro mencatat skor 1581 pada benchmark GDPVal-AA(Elo), melampaui Kimi K2.6 dan GLM 5.1
  • Tidak seperti banyak model "open" yang menyertakan kebijakan "Acceptable Use" yang terbatas, MiMo-V2.5 dirilis dengan lisensi MIT
    • Tanpa perlu persetujuan: distribusi komersial dimungkinkan tanpa izin eksplisit dari Xiaomi
    • Bebas melanjutkan pelatihan: dapat melakukan fine-tuning dengan data sendiri lalu merilis bobot turunan
    • Penggunaan komersial tanpa batas: tidak ada batas pendapatan atau jumlah pengguna yang umum pada lisensi komunitas
  • Pemimpin proyek Fuli Luo (mantan anggota inti DeepSeek)

    "Nilai model diukur bukan dari peringkatnya, tetapi dari masalah yang berhasil diselesaikannya"

 
cosine20 2026-05-01

Kalau melihat bidang bisnis utama Xiaomi, kemungkinan ini juga dibuat dengan mempertimbangkan agen seperti OpenClaw dan Hermes.