7 poin oleh xguru 19 hari lalu | 2 komentar | Bagikan ke WhatsApp
  • Model omni-modal native yang memproses teks, gambar, video, dan audio secara terpadu dalam arsitektur tunggal, serta dioptimalkan untuk tugas agen
  • Berlisensi MIT sehingga distribusi komersial dan fine-tuning semuanya dimungkinkan tanpa izin terpisah
  • Struktur Sparse MoE memungkinkan inferensi efisien dengan hanya mengaktifkan 15B dari total 310B parameter (versi Pro adalah 1.02T/42B)
  • Hybrid Attention (rasio SWA + GA 5:1, window 128) mendukung konteks hingga 1M token sambil mengurangi kebutuhan penyimpanan KV-cache sekitar 6x
  • Dibekali vision encoder khusus (ViT 729M parameter, hybrid window attention) dan audio encoder (261M parameter, berbasis MiMo-Audio-Tokenizer)
  • Modul Multi-Token Prediction (MTP) dengan 3 layer mempercepat inferensi berbasis speculative decoding dan meningkatkan efisiensi pelatihan RL
  • Dilatih dengan total sekitar 48T token menggunakan FP8 mixed precision, lalu pada tahap pascapemrosesan menerapkan SFT, agent RL skala besar, dan Multi-Teacher On-Policy Distillation (MOPD) untuk meningkatkan performa benchmark agen dan multimodal
    • Pipeline 5 tahap (pra-pelatihan teks → pemanasan projector → pra-pelatihan multimodal → SFT/pascapemrosesan agen → RL/MOPD)
  • Mendukung SGLang (kuantisasi FP8, paralel dp/tp) dan rilis resmi vLLM
  • Tersedia dalam dua versi: Base (256K) dan Full (1M)

2 komentar

 
xguru 19 hari lalu

Ini pernah diuji oleh VentureBeat, dan katanya cukup cocok untuk OpenClaw
https://venturebeat.com/ai/…

  • Pada benchmark ClawEval, model Pro mencatat tingkat keberhasilan 63,8% sebagai yang terdepan di ranah open-source
  • Mencapai hasil setara dengan 40–60% lebih sedikit token dibanding Anthropic Claude Opus 4.6, Google Gemini 3.1 Pro, dan OpenAI GPT-5.4
  • MiMo-V2.5 ("Omni") adalah model spesialis multimodal native yang memproses visual, audio, dan teks secara terpadu
  • MiMo-V2.5-Pro ("Agent") dikhususkan untuk "koherensi jangka panjang (long-horizon coherence)" dan software engineering yang kompleks
  • Model Pro mencatat skor 1581 pada benchmark GDPVal-AA(Elo), melampaui Kimi K2.6 dan GLM 5.1
  • Tidak seperti banyak model "open" yang menyertakan kebijakan "Acceptable Use" yang terbatas, MiMo-V2.5 dirilis dengan lisensi MIT
    • Tanpa perlu persetujuan: distribusi komersial dimungkinkan tanpa izin eksplisit dari Xiaomi
    • Bebas melanjutkan pelatihan: dapat melakukan fine-tuning dengan data sendiri lalu merilis bobot turunan
    • Penggunaan komersial tanpa batas: tidak ada batas pendapatan atau jumlah pengguna yang umum pada lisensi komunitas
  • Pemimpin proyek Fuli Luo (mantan anggota inti DeepSeek)

    "Nilai model diukur bukan dari peringkatnya, tetapi dari masalah yang berhasil diselesaikannya"

 
cosine20 17 hari lalu

Kalau melihat bidang bisnis utama Xiaomi, kemungkinan ini juga dibuat dengan mempertimbangkan agen seperti OpenClaw dan Hermes.