Pratinjau Moondream 3: Menghadirkan penalaran mutakhir dengan kecepatan revolusioner

(moondream.ai)

14 poin oleh GN⁺ 2025-09-28 | 1 komentar | Bagikan ke WhatsApp

Moondream 3 mencapai performa penalaran visual tingkat mutakhir sekaligus kecepatan inferensi yang cepat dan efisien dengan menerapkan arsitektur 9B MoE dan 2B parameter aktif
Model ini dirancang dengan fokus pada arsitektur yang dioptimalkan untuk tugas visi dunia nyata, kemudahan pelatihan, kecepatan tinggi, dan biaya rendah
Menunjukkan performa kuat di berbagai aplikasi nyata yang luas seperti deteksi objek, pointing, keluaran terstruktur, OCR
Mendukung panjang konteks 32k token sehingga sangat memperkuat kemampuan menangani kueri dan jawaban yang kompleks
Pada benchmark awal, model ini menunjukkan keunggulan dalam kecepatan respons dan efisiensi dibanding model besar yang sudah ada

Pendahuluan dan tujuan utama

Moondream 3 adalah model bahasa-visual baru berbasis arsitektur 9B Mixture-of-Experts(MoE) dan 2B parameter aktif
Dibanding model sebelumnya, model ini menargetkan kemampuan penalaran visual mutakhir sekaligus performa inferensi yang sangat cepat dan hemat biaya
Untuk menyelesaikan masalah dunia nyata, model ini berfokus pada 4 bidang inti berikut
- Penalaran visual: bertujuan memberikan kemampuan unggul untuk tugas dunia nyata tanpa mengorbankan kemampuan secara nyata meski ukuran model kecil
- Kemudahan pelatihan: menekankan fine-tuning yang mudah untuk tugas visi terspesialisasi seperti pembacaan citra medis dan deteksi perilaku abnormal di kerumunan
- Kecepatan: mendukung kecepatan tinggi pada aplikasi AI visi yang memerlukan pemrosesan real-time (klasifikasi hasil produksi, pengawasan berbasis drone, dll.)
- Biaya rendah: mengejar minimalisasi biaya operasional bahkan saat diterapkan dalam skala besar dengan mempertimbangkan lingkungan pemrosesan gambar masif
Meski merupakan model 9B MoE, hanya 2B parameter aktif yang berjalan, sehingga memungkinkan inferensi real-time yang cepat dan murah
Memanfaatkan Reinforcement Learning untuk memperkuat efisiensi pelatihan, sehingga menunjukkan kemampuan adaptasi tinggi bahkan di lingkungan kompleks
Panjang konteks diperluas besar dari 2k menjadi 32k, memperbaiki isu kemampuan pemrosesan konteks yang kompleks

Contoh nyata Moondream 3

Deteksi objek (Object Detection)
- Moondream 3 tidak hanya mengklasifikasikan label sederhana, tetapi juga mampu memahami kueri kompleks dan melakukan deteksi objek sesuai konteks
- Dibanding model frontier, model ini memberikan performa yang berbeda pada fungsi esensial seperti deteksi objek dan pointing
  - Contoh1: mendeteksi "pelari yang mengenakan kaus kaki ungu"
  - Contoh2: mendeteksi elemen UI "input kuantitas"
Pointing (fungsi penunjuk)
- Moondream 3 memiliki kemampuan bawaan untuk menunjuk (pointing) objek tertentu di dalam gambar secara presisi
  - Contoh3: pointing objek "botol"
  - Contoh4: memilih "alat masak yang paling cocok untuk pasta"
Keluaran terstruktur (Structured Output)
- Dengan panjang konteks 32k, kemampuan menghasilkan keluaran berstruktur kompleks meningkat, dan dengan prompt minimal dapat mengembalikan hasil yang terstruktur menjadi data seperti JSON
  - Contoh5: membuat array JSON dengan item dog_id, fur_color, harness_color untuk informasi anjing penarik kereta luncur
OCR (pengenalan karakter optik)
- Performa OCR meningkat drastis dibanding sebelumnya, sehingga dapat digunakan dalam beragam aplikasi dunia nyata
- Masih ada beberapa keterbatasan pada teks yang sangat kecil, tetapi menunjukkan akurasi tinggi dalam ekstraksi informasi terstruktur seperti tabel
  - Contoh6: mengubah tabel reaksi kimia menjadi tabel Markdown

Benchmark

Moondream 3 menunjukkan performa yang sebanding dengan VLM papan atas di berbagai benchmark
Namun, dari sisi kecepatan respons, Moondream 3 terus membuktikan keunggulan praktis dibanding model besar
Hasil benchmark yang lebih lengkap dan perbandingan waktu inferensi akan dirilis kemudian

Catatan teknis Moondream 3

Model Mixture-of-Experts sparse yang terperinci dengan 8 dari 64 expert yang diaktifkan pada setiap token
Menerapkan teknik inisialisasi drop upcycling dari Moondream 2 (2B Dense)
Mendukung panjang konteks penuh 32k token dalam pelatihan aktual
Sampel konteks panjang dicampurkan ke pra-pelatihan sehingga dapat diterapkan secara efektif tanpa tahap perluasan konteks tambahan
Memperkuat pemahaman konteks panjang melalui temperature scaling selama pelatihan dan penyesuaian structured attention
Mendukung dua mode: penalaran logis dan penjelasan non-logis, dengan spesialisasi khusus pada penalaran berbasis gambar (grounding)
Melalui pelatihan berbasis reinforcement learning (RL), ketergantungan pada contoh penalaran visual dan kemampuan adaptasi ditingkatkan secara bertahap
Setelah mendorong spesialisasi per token dengan load balancing, router orthogonal loss, dan lain-lain, stabilitas dilengkapi pada tahap post-training
Meningkatkan akurasi dan kejelasan dengan memperbaiki komponen attention seperti penekanan LSE, temperature tuning

Kesimpulan dan rencana ke depan

Pratinjau kali ini bisa terasa lambat karena kode inferensi yang belum dioptimalkan, dan pelatihan tambahan untuk model masih berlangsung
Pada versi resmi mendatang, performa, benchmark, dan kecepatan inferensi diperkirakan meningkat signifikan
Termasuk rencana pembuatan berbagai model turunan seperti kuantisasi dan versi kecil hasil distillation
Dapat digunakan di Moondream Playground dan HuggingFace, serta umpan balik dan pertanyaan dapat disampaikan melalui Discord

Catatan: Model frontier tidak mendukung deteksi objek esensial, sehingga prompt templat digunakan untuk keperluan perbandingan

1 komentar

GN⁺ 2025-09-28

Komentar Hacker News

Saya benar-benar sangat terbantu dengan Moondream 2, terutama untuk auto-labeling dataset deteksi objek untuk kelas baru, lalu mendistilnya ke CNN yang jauh lebih kecil dengan akurasi serupa
Sejak tag versi 2025-01-09, saya tidak terlalu merasakan peningkatan performa yang diumumkan; rilis-rilis setelah itu memang lebih baik di recall, tetapi sangat disayangkan precision-nya turun cukup besar
Untuk mengatasi masalah seperti ini dengan lebih baik, akan bagus jika model vision-language seperti Moondream juga melaporkan class confidence
Saya juga sangat menyukai adanya API deteksi objek khusus; saya belum pernah melihatnya di model atau wrapper lain
Saya menantikan hasil optimisasi inferensi di Moondream 3, selamat untuk timnya
Pendiri Vik layak untuk di-follow di X
- Ada balasan yang mengatakan bahwa jika punya contoh masalah precision/recall, silakan kirim email kapan saja ke vik@m87.ai
Saya juga memakainya untuk auto-labeling dataset dan hasilnya benar-benar bagus
Performa model Moondream benar-benar mengesankan
Tetapi setelah melihat hasil lab tiga besar, saya terkejut melihat betapa buruknya Claude dan OpenAI
Walaupun Gemini masih kalah dari Moondream, setidaknya itu satu-satunya yang bisa dibilang cukup layak dipakai
Saya tidak menyangka selama ini selisih performanya bisa sebesar ini
- Menariknya, hanya Gemini yang membaca angka pada dadu D20 dengan benar
  ChatGPT terus salah, dan Claude hanya bilang tidak bisa membacanya karena sisi atas dadu tertutup (padahal sebenarnya tidak tertutup)
- Aneh juga Moondream sudah sebagus ini tetapi belum diakuisisi big tech
  Rasanya Anthropic, OpenAI, dan lainnya pasti ingin membawa teknologi seperti ini ke platform mereka
  Orang-orang yang membuatnya pantas jadi kaya, dan jika digabungkan dengan jangkauan organisasi besar, pemanfaatan visual pada LLM akan jadi jauh lebih berguna
- Gemini sangat unggul untuk tugas yang mendekati OCR, tetapi untuk kebanyakan tugas gambar lainnya performanya cenderung turun drastis
Hasilnya benar-benar keren
Saya juga lebih suka Gemini untuk otomatisasi bounding box, jadi kalau model 9B bisa mengalahkannya saya sangat antusias
Moondream 2 berlisensi Apache 2, tetapi preview 3 memakai BSL, jadi saya penasaran apakah lisensinya berubah secara permanen
- Jika melihat lisensi Moondream3, lisensinya akan berubah ke Apache 2 setelah 2 tahun
Di paper.design kami menggunakan moondream2 untuk memberi label otomatis pada gambar yang diunggah pengguna (untuk layer tree)
Sangat cepat dan akurat, jadi saya juga menantikan versi 3
Saya menghabiskan 5 menit mencari informasi harga Moondream cloud, tetapi sepertinya memang tidak ada sama sekali (setidaknya sebelum mendaftar)
Memang ada 5.000 request gratis, tetapi sebelum menghubungkan layanan nyata, prioritas utama saya adalah memastikan harganya masuk akal
- Cloud akan segera dirilis
  Mereka sedang mengoptimalkan agar biaya inferensinya lebih rendah, dan sedang bersiap supaya bisa menawarkan harga terbaik
  Jika ingin cepat tahu saat rilis, boleh follow @moondreamai di X
Menurut saya pilihan arsitektur MoE sangat menarik
Fakta bahwa hanya 2B parameter yang aktif tetapi performanya tetap setingkat model 8B bisa menjadi perubahan besar untuk deployment di edge device
Saya punya banyak pengalaman men-deploy model vision di produksi yang sensitif terhadap latensi, dan sparse activation seperti ini tampaknya bisa sangat mengurangi hambatan adopsi akibat biaya inferensi model vision-language yang besar
Kemampuan memahami chart juga jadi poin yang menjanjikan untuk workflow otomatisasi dokumen
Saya penasaran apakah ada yang sudah menguji konsistensi model ini pada kualitas gambar atau kondisi pencahayaan yang berbeda
Dalam kondisi seperti itu, model kecil sering kali lebih kesulitan daripada model flagship
Model yang mengesankan
Saya penasaran apakah ada yang sudah mencobanya untuk kontrol komputer/browser, dan juga seberapa baik model ini menangani grafik dan chart
- Skill point dilatih dengan banyak data UI, dan banyak pengguna juga memakainya untuk otomatisasi UI dengan menggabungkannya dengan model driver yang lebih besar
  Mereka juga sedang mencoba pelatihan tambahan agar bisa berjalan end-to-end di lingkungan agent sebelum rilis final
  Karena itu, panjang context juga ditambah
  Pemahaman chart mencakup banyak tipe, tetapi secara umum cukup bagus
  Mereka mempublikasikan benchmark ChartQA di blog, dan hasilnya mirip GPT5* serta sedikit lebih baik daripada Gemini 2.5 Flash
  - Namun, GPT5 kemungkinan akan bekerja jauh lebih baik pada variasi chart/grafik yang lebih luas, sementara Moondream lebih cocok untuk vision AI yang sulit memakai GPT5 karena alasan harga/latensi
- Saya memakainya untuk labeling dataset dan menantikan seperti apa hasilnya
Saya penasaran apakah konsep 2B active parameters itu berlaku untuk inferensi per token, dan bagaimana konsep itu diskalakan saat panjang context berubah
Secara spesifik, saya ingin mendengar penjelasan tambahan tentang dampak MoE terhadap aktivasi saat inferensi dan makna praktisnya dari sisi latensi
Ada yang bisa merekomendasikan hardware termurah untuk menjalankan model ini secara lokal pada tingkat yang masih layak?
- Karena belum ada versi terkuantisasi, hanya bobotnya saja sudah membutuhkan memori sekitar 20GB
  Jika termasuk KV cache, kombinasi CPU dengan RAM 32GB tampaknya jadi opsi termurah yang masih lumayan cepat
  Karena jumlah parameter aktifnya sedikit, performanya juga cukup baik di CPU
Saya penasaran dengan hasil perbandingan performa antara model Qwen3-VL dan Moondream

Pratinjau Moondream 3: Menghadirkan penalaran mutakhir dengan kecepatan revolusioner

Pendahuluan dan tujuan utama

Contoh nyata Moondream 3

Deteksi objek (Object Detection)

Pointing (fungsi penunjuk)

Keluaran terstruktur (Structured Output)

OCR (pengenalan karakter optik)

Benchmark

Catatan teknis Moondream 3

Kesimpulan dan rencana ke depan

Bacaan terkait

1 komentar

Komentar Hacker News