14 poin oleh GN⁺ 2025-09-28 | 1 komentar | Bagikan ke WhatsApp
  • Moondream 3 mencapai performa penalaran visual tingkat mutakhir sekaligus kecepatan inferensi yang cepat dan efisien dengan menerapkan arsitektur 9B MoE dan 2B parameter aktif
  • Model ini dirancang dengan fokus pada arsitektur yang dioptimalkan untuk tugas visi dunia nyata, kemudahan pelatihan, kecepatan tinggi, dan biaya rendah
  • Menunjukkan performa kuat di berbagai aplikasi nyata yang luas seperti deteksi objek, pointing, keluaran terstruktur, OCR
  • Mendukung panjang konteks 32k token sehingga sangat memperkuat kemampuan menangani kueri dan jawaban yang kompleks
  • Pada benchmark awal, model ini menunjukkan keunggulan dalam kecepatan respons dan efisiensi dibanding model besar yang sudah ada

Pendahuluan dan tujuan utama

  • Moondream 3 adalah model bahasa-visual baru berbasis arsitektur 9B Mixture-of-Experts(MoE) dan 2B parameter aktif
  • Dibanding model sebelumnya, model ini menargetkan kemampuan penalaran visual mutakhir sekaligus performa inferensi yang sangat cepat dan hemat biaya
  • Untuk menyelesaikan masalah dunia nyata, model ini berfokus pada 4 bidang inti berikut
    • Penalaran visual: bertujuan memberikan kemampuan unggul untuk tugas dunia nyata tanpa mengorbankan kemampuan secara nyata meski ukuran model kecil
    • Kemudahan pelatihan: menekankan fine-tuning yang mudah untuk tugas visi terspesialisasi seperti pembacaan citra medis dan deteksi perilaku abnormal di kerumunan
    • Kecepatan: mendukung kecepatan tinggi pada aplikasi AI visi yang memerlukan pemrosesan real-time (klasifikasi hasil produksi, pengawasan berbasis drone, dll.)
    • Biaya rendah: mengejar minimalisasi biaya operasional bahkan saat diterapkan dalam skala besar dengan mempertimbangkan lingkungan pemrosesan gambar masif
  • Meski merupakan model 9B MoE, hanya 2B parameter aktif yang berjalan, sehingga memungkinkan inferensi real-time yang cepat dan murah
  • Memanfaatkan Reinforcement Learning untuk memperkuat efisiensi pelatihan, sehingga menunjukkan kemampuan adaptasi tinggi bahkan di lingkungan kompleks
  • Panjang konteks diperluas besar dari 2k menjadi 32k, memperbaiki isu kemampuan pemrosesan konteks yang kompleks

Contoh nyata Moondream 3

  • Deteksi objek (Object Detection)

    • Moondream 3 tidak hanya mengklasifikasikan label sederhana, tetapi juga mampu memahami kueri kompleks dan melakukan deteksi objek sesuai konteks
    • Dibanding model frontier, model ini memberikan performa yang berbeda pada fungsi esensial seperti deteksi objek dan pointing
      • Contoh1: mendeteksi "pelari yang mengenakan kaus kaki ungu"
      • Contoh2: mendeteksi elemen UI "input kuantitas"
  • Pointing (fungsi penunjuk)

    • Moondream 3 memiliki kemampuan bawaan untuk menunjuk (pointing) objek tertentu di dalam gambar secara presisi
      • Contoh3: pointing objek "botol"
      • Contoh4: memilih "alat masak yang paling cocok untuk pasta"
  • Keluaran terstruktur (Structured Output)

    • Dengan panjang konteks 32k, kemampuan menghasilkan keluaran berstruktur kompleks meningkat, dan dengan prompt minimal dapat mengembalikan hasil yang terstruktur menjadi data seperti JSON
      • Contoh5: membuat array JSON dengan item dog_id, fur_color, harness_color untuk informasi anjing penarik kereta luncur
  • OCR (pengenalan karakter optik)

    • Performa OCR meningkat drastis dibanding sebelumnya, sehingga dapat digunakan dalam beragam aplikasi dunia nyata
    • Masih ada beberapa keterbatasan pada teks yang sangat kecil, tetapi menunjukkan akurasi tinggi dalam ekstraksi informasi terstruktur seperti tabel
      • Contoh6: mengubah tabel reaksi kimia menjadi tabel Markdown

Benchmark

  • Moondream 3 menunjukkan performa yang sebanding dengan VLM papan atas di berbagai benchmark
  • Namun, dari sisi kecepatan respons, Moondream 3 terus membuktikan keunggulan praktis dibanding model besar
  • Hasil benchmark yang lebih lengkap dan perbandingan waktu inferensi akan dirilis kemudian

Catatan teknis Moondream 3

  • Model Mixture-of-Experts sparse yang terperinci dengan 8 dari 64 expert yang diaktifkan pada setiap token
  • Menerapkan teknik inisialisasi drop upcycling dari Moondream 2 (2B Dense)
  • Mendukung panjang konteks penuh 32k token dalam pelatihan aktual
  • Sampel konteks panjang dicampurkan ke pra-pelatihan sehingga dapat diterapkan secara efektif tanpa tahap perluasan konteks tambahan
  • Memperkuat pemahaman konteks panjang melalui temperature scaling selama pelatihan dan penyesuaian structured attention
  • Mendukung dua mode: penalaran logis dan penjelasan non-logis, dengan spesialisasi khusus pada penalaran berbasis gambar (grounding)
  • Melalui pelatihan berbasis reinforcement learning (RL), ketergantungan pada contoh penalaran visual dan kemampuan adaptasi ditingkatkan secara bertahap
  • Setelah mendorong spesialisasi per token dengan load balancing, router orthogonal loss, dan lain-lain, stabilitas dilengkapi pada tahap post-training
  • Meningkatkan akurasi dan kejelasan dengan memperbaiki komponen attention seperti penekanan LSE, temperature tuning

Kesimpulan dan rencana ke depan

  • Pratinjau kali ini bisa terasa lambat karena kode inferensi yang belum dioptimalkan, dan pelatihan tambahan untuk model masih berlangsung
  • Pada versi resmi mendatang, performa, benchmark, dan kecepatan inferensi diperkirakan meningkat signifikan
  • Termasuk rencana pembuatan berbagai model turunan seperti kuantisasi dan versi kecil hasil distillation
  • Dapat digunakan di Moondream Playground dan HuggingFace, serta umpan balik dan pertanyaan dapat disampaikan melalui Discord

Catatan: Model frontier tidak mendukung deteksi objek esensial, sehingga prompt templat digunakan untuk keperluan perbandingan

1 komentar

 
GN⁺ 2025-09-28
Komentar Hacker News
  • Saya benar-benar sangat terbantu dengan Moondream 2, terutama untuk auto-labeling dataset deteksi objek untuk kelas baru, lalu mendistilnya ke CNN yang jauh lebih kecil dengan akurasi serupa
    Sejak tag versi 2025-01-09, saya tidak terlalu merasakan peningkatan performa yang diumumkan; rilis-rilis setelah itu memang lebih baik di recall, tetapi sangat disayangkan precision-nya turun cukup besar
    Untuk mengatasi masalah seperti ini dengan lebih baik, akan bagus jika model vision-language seperti Moondream juga melaporkan class confidence
    Saya juga sangat menyukai adanya API deteksi objek khusus; saya belum pernah melihatnya di model atau wrapper lain
    Saya menantikan hasil optimisasi inferensi di Moondream 3, selamat untuk timnya
    Pendiri Vik layak untuk di-follow di X
    • Ada balasan yang mengatakan bahwa jika punya contoh masalah precision/recall, silakan kirim email kapan saja ke vik@m87.ai
  • Saya juga memakainya untuk auto-labeling dataset dan hasilnya benar-benar bagus
  • Performa model Moondream benar-benar mengesankan
    Tetapi setelah melihat hasil lab tiga besar, saya terkejut melihat betapa buruknya Claude dan OpenAI
    Walaupun Gemini masih kalah dari Moondream, setidaknya itu satu-satunya yang bisa dibilang cukup layak dipakai
    Saya tidak menyangka selama ini selisih performanya bisa sebesar ini
    • Menariknya, hanya Gemini yang membaca angka pada dadu D20 dengan benar
      ChatGPT terus salah, dan Claude hanya bilang tidak bisa membacanya karena sisi atas dadu tertutup (padahal sebenarnya tidak tertutup)
    • Aneh juga Moondream sudah sebagus ini tetapi belum diakuisisi big tech
      Rasanya Anthropic, OpenAI, dan lainnya pasti ingin membawa teknologi seperti ini ke platform mereka
      Orang-orang yang membuatnya pantas jadi kaya, dan jika digabungkan dengan jangkauan organisasi besar, pemanfaatan visual pada LLM akan jadi jauh lebih berguna
    • Gemini sangat unggul untuk tugas yang mendekati OCR, tetapi untuk kebanyakan tugas gambar lainnya performanya cenderung turun drastis
  • Hasilnya benar-benar keren
    Saya juga lebih suka Gemini untuk otomatisasi bounding box, jadi kalau model 9B bisa mengalahkannya saya sangat antusias
    Moondream 2 berlisensi Apache 2, tetapi preview 3 memakai BSL, jadi saya penasaran apakah lisensinya berubah secara permanen
  • Di paper.design kami menggunakan moondream2 untuk memberi label otomatis pada gambar yang diunggah pengguna (untuk layer tree)
    Sangat cepat dan akurat, jadi saya juga menantikan versi 3
  • Saya menghabiskan 5 menit mencari informasi harga Moondream cloud, tetapi sepertinya memang tidak ada sama sekali (setidaknya sebelum mendaftar)
    Memang ada 5.000 request gratis, tetapi sebelum menghubungkan layanan nyata, prioritas utama saya adalah memastikan harganya masuk akal
    • Cloud akan segera dirilis
      Mereka sedang mengoptimalkan agar biaya inferensinya lebih rendah, dan sedang bersiap supaya bisa menawarkan harga terbaik
      Jika ingin cepat tahu saat rilis, boleh follow @moondreamai di X
  • Menurut saya pilihan arsitektur MoE sangat menarik
    Fakta bahwa hanya 2B parameter yang aktif tetapi performanya tetap setingkat model 8B bisa menjadi perubahan besar untuk deployment di edge device
    Saya punya banyak pengalaman men-deploy model vision di produksi yang sensitif terhadap latensi, dan sparse activation seperti ini tampaknya bisa sangat mengurangi hambatan adopsi akibat biaya inferensi model vision-language yang besar
    Kemampuan memahami chart juga jadi poin yang menjanjikan untuk workflow otomatisasi dokumen
    Saya penasaran apakah ada yang sudah menguji konsistensi model ini pada kualitas gambar atau kondisi pencahayaan yang berbeda
    Dalam kondisi seperti itu, model kecil sering kali lebih kesulitan daripada model flagship
  • Model yang mengesankan
    Saya penasaran apakah ada yang sudah mencobanya untuk kontrol komputer/browser, dan juga seberapa baik model ini menangani grafik dan chart
    • Skill point dilatih dengan banyak data UI, dan banyak pengguna juga memakainya untuk otomatisasi UI dengan menggabungkannya dengan model driver yang lebih besar
      Mereka juga sedang mencoba pelatihan tambahan agar bisa berjalan end-to-end di lingkungan agent sebelum rilis final
      Karena itu, panjang context juga ditambah
      Pemahaman chart mencakup banyak tipe, tetapi secara umum cukup bagus
      Mereka mempublikasikan benchmark ChartQA di blog, dan hasilnya mirip GPT5* serta sedikit lebih baik daripada Gemini 2.5 Flash
      • Namun, GPT5 kemungkinan akan bekerja jauh lebih baik pada variasi chart/grafik yang lebih luas, sementara Moondream lebih cocok untuk vision AI yang sulit memakai GPT5 karena alasan harga/latensi
    • Saya memakainya untuk labeling dataset dan menantikan seperti apa hasilnya
  • Saya penasaran apakah konsep 2B active parameters itu berlaku untuk inferensi per token, dan bagaimana konsep itu diskalakan saat panjang context berubah
    Secara spesifik, saya ingin mendengar penjelasan tambahan tentang dampak MoE terhadap aktivasi saat inferensi dan makna praktisnya dari sisi latensi
  • Ada yang bisa merekomendasikan hardware termurah untuk menjalankan model ini secara lokal pada tingkat yang masih layak?
    • Karena belum ada versi terkuantisasi, hanya bobotnya saja sudah membutuhkan memori sekitar 20GB
      Jika termasuk KV cache, kombinasi CPU dengan RAM 32GB tampaknya jadi opsi termurah yang masih lumayan cepat
      Karena jumlah parameter aktifnya sedikit, performanya juga cukup baik di CPU
  • Saya penasaran dengan hasil perbandingan performa antara model Qwen3-VL dan Moondream