3 poin oleh xguru 1 jam lalu | Belum ada komentar. | Bagikan ke WhatsApp
  • Model omni-modal native yang mengintegrasikan pemrosesan teks, gambar, video, dan audio dalam arsitektur tunggal, serta dioptimalkan untuk tugas agen
  • Dengan lisensi MIT, distribusi komersial dan fine-tuning semuanya dimungkinkan — tidak memerlukan izin terpisah
  • Struktur Sparse MoE memungkinkan inferensi efisien dengan hanya mengaktifkan 15B dari total 310B parameter (versi Pro adalah 1.02T/42B)
  • Hybrid Attention (SWA + GA rasio 5:1, window 128) mendukung konteks hingga 1M token sambil mengurangi kebutuhan penyimpanan KV-cache sekitar 6 kali lipat
  • Dilengkapi encoder visi khusus (ViT 729M parameter, hybrid window attention) dan encoder audio (261M parameter, berbasis MiMo-Audio-Tokenizer)
  • Tiga layer modul Multi-Token Prediction(MTP) mempercepat inferensi berbasis speculative decoding dan meningkatkan efisiensi pelatihan RL
  • Dilatih dengan total sekitar 48T token menggunakan FP8 mixed precision, lalu pada tahap pascapemrosesan diterapkan SFT, agent RL skala besar, Multi-Teacher On-Policy Distillation(MOPD) untuk memperkuat performa benchmark agen dan multimodal
    • Pipeline 5 tahap (pra-pelatihan teks → pemanasan projector → pra-pelatihan multimodal → SFT/pascapemrosesan agen → RL/MOPD)
  • Mendukung SGLang(FP8 quantization, paralel dp/tp) dan rilis resmi vLLM
  • Tersedia dalam dua versi: Base(256K) dan Full(1M)

Belum ada komentar.

Belum ada komentar.