- Moondream 3 mencapai performa penalaran visual tingkat mutakhir sekaligus kecepatan inferensi yang cepat dan efisien dengan menerapkan arsitektur 9B MoE dan 2B parameter aktif
- Model ini dirancang dengan fokus pada arsitektur yang dioptimalkan untuk tugas visi dunia nyata, kemudahan pelatihan, kecepatan tinggi, dan biaya rendah
- Menunjukkan performa kuat di berbagai aplikasi nyata yang luas seperti deteksi objek, pointing, keluaran terstruktur, OCR
- Mendukung panjang konteks 32k token sehingga sangat memperkuat kemampuan menangani kueri dan jawaban yang kompleks
- Pada benchmark awal, model ini menunjukkan keunggulan dalam kecepatan respons dan efisiensi dibanding model besar yang sudah ada
Pendahuluan dan tujuan utama
- Moondream 3 adalah model bahasa-visual baru berbasis arsitektur 9B Mixture-of-Experts(MoE) dan 2B parameter aktif
- Dibanding model sebelumnya, model ini menargetkan kemampuan penalaran visual mutakhir sekaligus performa inferensi yang sangat cepat dan hemat biaya
- Untuk menyelesaikan masalah dunia nyata, model ini berfokus pada 4 bidang inti berikut
- Penalaran visual: bertujuan memberikan kemampuan unggul untuk tugas dunia nyata tanpa mengorbankan kemampuan secara nyata meski ukuran model kecil
- Kemudahan pelatihan: menekankan fine-tuning yang mudah untuk tugas visi terspesialisasi seperti pembacaan citra medis dan deteksi perilaku abnormal di kerumunan
- Kecepatan: mendukung kecepatan tinggi pada aplikasi AI visi yang memerlukan pemrosesan real-time (klasifikasi hasil produksi, pengawasan berbasis drone, dll.)
- Biaya rendah: mengejar minimalisasi biaya operasional bahkan saat diterapkan dalam skala besar dengan mempertimbangkan lingkungan pemrosesan gambar masif
- Meski merupakan model 9B MoE, hanya 2B parameter aktif yang berjalan, sehingga memungkinkan inferensi real-time yang cepat dan murah
- Memanfaatkan Reinforcement Learning untuk memperkuat efisiensi pelatihan, sehingga menunjukkan kemampuan adaptasi tinggi bahkan di lingkungan kompleks
- Panjang konteks diperluas besar dari 2k menjadi 32k, memperbaiki isu kemampuan pemrosesan konteks yang kompleks
Contoh nyata Moondream 3
-
Deteksi objek (Object Detection)
- Moondream 3 tidak hanya mengklasifikasikan label sederhana, tetapi juga mampu memahami kueri kompleks dan melakukan deteksi objek sesuai konteks
- Dibanding model frontier, model ini memberikan performa yang berbeda pada fungsi esensial seperti deteksi objek dan pointing
- Contoh1: mendeteksi "pelari yang mengenakan kaus kaki ungu"
- Contoh2: mendeteksi elemen UI "input kuantitas"
-
Pointing (fungsi penunjuk)
- Moondream 3 memiliki kemampuan bawaan untuk menunjuk (pointing) objek tertentu di dalam gambar secara presisi
- Contoh3: pointing objek "botol"
- Contoh4: memilih "alat masak yang paling cocok untuk pasta"
- Moondream 3 memiliki kemampuan bawaan untuk menunjuk (pointing) objek tertentu di dalam gambar secara presisi
-
Keluaran terstruktur (Structured Output)
- Dengan panjang konteks 32k, kemampuan menghasilkan keluaran berstruktur kompleks meningkat, dan dengan prompt minimal dapat mengembalikan hasil yang terstruktur menjadi data seperti JSON
- Contoh5: membuat array JSON dengan item dog_id, fur_color, harness_color untuk informasi anjing penarik kereta luncur
- Dengan panjang konteks 32k, kemampuan menghasilkan keluaran berstruktur kompleks meningkat, dan dengan prompt minimal dapat mengembalikan hasil yang terstruktur menjadi data seperti JSON
-
OCR (pengenalan karakter optik)
- Performa OCR meningkat drastis dibanding sebelumnya, sehingga dapat digunakan dalam beragam aplikasi dunia nyata
- Masih ada beberapa keterbatasan pada teks yang sangat kecil, tetapi menunjukkan akurasi tinggi dalam ekstraksi informasi terstruktur seperti tabel
- Contoh6: mengubah tabel reaksi kimia menjadi tabel Markdown
Benchmark
- Moondream 3 menunjukkan performa yang sebanding dengan VLM papan atas di berbagai benchmark
- Namun, dari sisi kecepatan respons, Moondream 3 terus membuktikan keunggulan praktis dibanding model besar
- Hasil benchmark yang lebih lengkap dan perbandingan waktu inferensi akan dirilis kemudian
Catatan teknis Moondream 3
- Model Mixture-of-Experts sparse yang terperinci dengan 8 dari 64 expert yang diaktifkan pada setiap token
- Menerapkan teknik inisialisasi drop upcycling dari Moondream 2 (2B Dense)
- Mendukung panjang konteks penuh 32k token dalam pelatihan aktual
- Sampel konteks panjang dicampurkan ke pra-pelatihan sehingga dapat diterapkan secara efektif tanpa tahap perluasan konteks tambahan
- Memperkuat pemahaman konteks panjang melalui temperature scaling selama pelatihan dan penyesuaian structured attention
- Mendukung dua mode: penalaran logis dan penjelasan non-logis, dengan spesialisasi khusus pada penalaran berbasis gambar (grounding)
- Melalui pelatihan berbasis reinforcement learning (RL), ketergantungan pada contoh penalaran visual dan kemampuan adaptasi ditingkatkan secara bertahap
- Setelah mendorong spesialisasi per token dengan load balancing, router orthogonal loss, dan lain-lain, stabilitas dilengkapi pada tahap post-training
- Meningkatkan akurasi dan kejelasan dengan memperbaiki komponen attention seperti penekanan LSE, temperature tuning
Kesimpulan dan rencana ke depan
- Pratinjau kali ini bisa terasa lambat karena kode inferensi yang belum dioptimalkan, dan pelatihan tambahan untuk model masih berlangsung
- Pada versi resmi mendatang, performa, benchmark, dan kecepatan inferensi diperkirakan meningkat signifikan
- Termasuk rencana pembuatan berbagai model turunan seperti kuantisasi dan versi kecil hasil distillation
- Dapat digunakan di Moondream Playground dan HuggingFace, serta umpan balik dan pertanyaan dapat disampaikan melalui Discord
Catatan: Model frontier tidak mendukung deteksi objek esensial, sehingga prompt templat digunakan untuk keperluan perbandingan
1 komentar
Komentar Hacker News
Sejak tag versi 2025-01-09, saya tidak terlalu merasakan peningkatan performa yang diumumkan; rilis-rilis setelah itu memang lebih baik di recall, tetapi sangat disayangkan precision-nya turun cukup besar
Untuk mengatasi masalah seperti ini dengan lebih baik, akan bagus jika model vision-language seperti Moondream juga melaporkan class confidence
Saya juga sangat menyukai adanya API deteksi objek khusus; saya belum pernah melihatnya di model atau wrapper lain
Saya menantikan hasil optimisasi inferensi di Moondream 3, selamat untuk timnya
Pendiri Vik layak untuk di-follow di X
Tetapi setelah melihat hasil lab tiga besar, saya terkejut melihat betapa buruknya Claude dan OpenAI
Walaupun Gemini masih kalah dari Moondream, setidaknya itu satu-satunya yang bisa dibilang cukup layak dipakai
Saya tidak menyangka selama ini selisih performanya bisa sebesar ini
ChatGPT terus salah, dan Claude hanya bilang tidak bisa membacanya karena sisi atas dadu tertutup (padahal sebenarnya tidak tertutup)
Rasanya Anthropic, OpenAI, dan lainnya pasti ingin membawa teknologi seperti ini ke platform mereka
Orang-orang yang membuatnya pantas jadi kaya, dan jika digabungkan dengan jangkauan organisasi besar, pemanfaatan visual pada LLM akan jadi jauh lebih berguna
Saya juga lebih suka Gemini untuk otomatisasi bounding box, jadi kalau model 9B bisa mengalahkannya saya sangat antusias
Moondream 2 berlisensi Apache 2, tetapi preview 3 memakai BSL, jadi saya penasaran apakah lisensinya berubah secara permanen
Sangat cepat dan akurat, jadi saya juga menantikan versi 3
Memang ada 5.000 request gratis, tetapi sebelum menghubungkan layanan nyata, prioritas utama saya adalah memastikan harganya masuk akal
Mereka sedang mengoptimalkan agar biaya inferensinya lebih rendah, dan sedang bersiap supaya bisa menawarkan harga terbaik
Jika ingin cepat tahu saat rilis, boleh follow @moondreamai di X
Fakta bahwa hanya 2B parameter yang aktif tetapi performanya tetap setingkat model 8B bisa menjadi perubahan besar untuk deployment di edge device
Saya punya banyak pengalaman men-deploy model vision di produksi yang sensitif terhadap latensi, dan sparse activation seperti ini tampaknya bisa sangat mengurangi hambatan adopsi akibat biaya inferensi model vision-language yang besar
Kemampuan memahami chart juga jadi poin yang menjanjikan untuk workflow otomatisasi dokumen
Saya penasaran apakah ada yang sudah menguji konsistensi model ini pada kualitas gambar atau kondisi pencahayaan yang berbeda
Dalam kondisi seperti itu, model kecil sering kali lebih kesulitan daripada model flagship
Saya penasaran apakah ada yang sudah mencobanya untuk kontrol komputer/browser, dan juga seberapa baik model ini menangani grafik dan chart
pointdilatih dengan banyak data UI, dan banyak pengguna juga memakainya untuk otomatisasi UI dengan menggabungkannya dengan model driver yang lebih besarMereka juga sedang mencoba pelatihan tambahan agar bisa berjalan end-to-end di lingkungan agent sebelum rilis final
Karena itu, panjang context juga ditambah
Pemahaman chart mencakup banyak tipe, tetapi secara umum cukup bagus
Mereka mempublikasikan benchmark ChartQA di blog, dan hasilnya mirip GPT5* serta sedikit lebih baik daripada Gemini 2.5 Flash
Secara spesifik, saya ingin mendengar penjelasan tambahan tentang dampak MoE terhadap aktivasi saat inferensi dan makna praktisnya dari sisi latensi
Jika termasuk KV cache, kombinasi CPU dengan RAM 32GB tampaknya jadi opsi termurah yang masih lumayan cepat
Karena jumlah parameter aktifnya sedikit, performanya juga cukup baik di CPU