- Model omni-modal native yang memproses teks, gambar, video, dan audio secara terpadu dalam arsitektur tunggal, serta dioptimalkan untuk tugas agen
- Berlisensi MIT sehingga distribusi komersial dan fine-tuning semuanya dimungkinkan tanpa izin terpisah
- Struktur Sparse MoE memungkinkan inferensi efisien dengan hanya mengaktifkan 15B dari total 310B parameter (versi Pro adalah 1.02T/42B)
- Hybrid Attention (rasio SWA + GA 5:1, window 128) mendukung konteks hingga 1M token sambil mengurangi kebutuhan penyimpanan KV-cache sekitar 6x
- Dibekali vision encoder khusus (ViT 729M parameter, hybrid window attention) dan audio encoder (261M parameter, berbasis MiMo-Audio-Tokenizer)
- Modul Multi-Token Prediction (MTP) dengan 3 layer mempercepat inferensi berbasis speculative decoding dan meningkatkan efisiensi pelatihan RL
- Dilatih dengan total sekitar 48T token menggunakan FP8 mixed precision, lalu pada tahap pascapemrosesan menerapkan SFT, agent RL skala besar, dan Multi-Teacher On-Policy Distillation (MOPD) untuk meningkatkan performa benchmark agen dan multimodal
- Pipeline 5 tahap (pra-pelatihan teks → pemanasan projector → pra-pelatihan multimodal → SFT/pascapemrosesan agen → RL/MOPD)
- Mendukung SGLang (kuantisasi FP8, paralel dp/tp) dan rilis resmi vLLM
- Tersedia dalam dua versi: Base (256K) dan Full (1M)
2 komentar
Ini pernah diuji oleh VentureBeat, dan katanya cukup cocok untuk OpenClaw
https://venturebeat.com/ai/…
Kalau melihat bidang bisnis utama Xiaomi, kemungkinan ini juga dibuat dengan mempertimbangkan agen seperti OpenClaw dan Hermes.