MiMo-V2.5 — model AI omni open-source dari Xiaomi

(huggingface.co)

3 poin oleh xguru 1 jam lalu | Belum ada komentar. | Bagikan ke WhatsApp

Model omni-modal native yang mengintegrasikan pemrosesan teks, gambar, video, dan audio dalam arsitektur tunggal, serta dioptimalkan untuk tugas agen
Dengan lisensi MIT, distribusi komersial dan fine-tuning semuanya dimungkinkan — tidak memerlukan izin terpisah
Struktur Sparse MoE memungkinkan inferensi efisien dengan hanya mengaktifkan 15B dari total 310B parameter (versi Pro adalah 1.02T/42B)
Hybrid Attention (SWA + GA rasio 5:1, window 128) mendukung konteks hingga 1M token sambil mengurangi kebutuhan penyimpanan KV-cache sekitar 6 kali lipat
Dilengkapi encoder visi khusus (ViT 729M parameter, hybrid window attention) dan encoder audio (261M parameter, berbasis MiMo-Audio-Tokenizer)
Tiga layer modul Multi-Token Prediction(MTP) mempercepat inferensi berbasis speculative decoding dan meningkatkan efisiensi pelatihan RL
Dilatih dengan total sekitar 48T token menggunakan FP8 mixed precision, lalu pada tahap pascapemrosesan diterapkan SFT, agent RL skala besar, Multi-Teacher On-Policy Distillation(MOPD) untuk memperkuat performa benchmark agen dan multimodal
- Pipeline 5 tahap (pra-pelatihan teks → pemanasan projector → pra-pelatihan multimodal → SFT/pascapemrosesan agen → RL/MOPD)
Mendukung SGLang(FP8 quantization, paralel dp/tp) dan rilis resmi vLLM
Tersedia dalam dua versi: Base(256K) dan Full(1M)

Bacaan terkait