9 poin oleh jake630 2026-04-02 | 4 komentar | Bagikan ke WhatsApp

Halo, kami ingin memperkenalkan model foundation omnimodal Dynin-Omni (https://dynin.ai/omni/) yang dirilis oleh Lab AIDAS Seoul National University (https://aidas.snu.ac.kr/). Ini adalah arsitektur terpadu yang dapat memahami sekaligus menghasilkan teks, gambar, suara, dan video dalam satu model.

Belakangan ini, banyak model multimodal terpadu yang memakai struktur dengan menempelkan generator gambar atau model TTS ke LLM, tetapi saat benar-benar digunakan, pipeline-nya sering kompleks sehingga lambat dan kadang orkestrasinya bermasalah.

Selain itu, meskipun suatu model mendukung pemahaman dan generasi secara native tanpa generator eksternal, kebanyakan tetap berbasis Autoregressive (AR), sehingga token harus dihasilkan secara berurutan. Padahal, gambar atau video pada dasarnya bukan data yang sekuensial, jadi pendekatan ini terasa agak kurang alami.

Karena itu, kami mengubah pendekatannya dari awal.

Alih-alih menghasilkan token satu per satu, kami mengadopsi metode masked diffusion yang memask lalu memulihkan sekaligus. Dengan cara ini, seluruh tugas dapat disatukan menjadi “token mana yang akan ditutupi dan dipulihkan”.

Contohnya:

  • Melihat gambar lalu menjelaskannya → hanya mengisi teks
  • Menghasilkan gambar dari teks → mengisi token gambar
  • Menghasilkan suara → mengisi token suara

Seperti itu.

Dengan demikian, tanpa perlu menambahkan model generasi gambar atau model TTS secara terpisah, satu model dapat menangani pemahaman dan generasi sekaligus. Dari sisi performa, hasilnya tergolong sangat baik untuk model tunggal.

Inferensi teks berada pada tingkat yang sebanding dengan LLM terbaru, sementara pemahaman gambar dan video berada pada tingkat yang kompetitif dengan model vision seperti InternVL dan Qwen2.5-VL. Untuk generasi gambar, performanya mendekati model spesialis seperti FLUX, dan untuk suara mendekati model spesialis seperti keluarga Qwen-TTS.

Dari sisi kecepatan juga efisien. Kecepatan generasi teks sekitar 4–5 kali lebih cepat dibanding Qwen2.5-Omni dan MiniCPM-o4.5, serta sekitar 2,5 kali lebih cepat bahkan dibanding Qwen3-8B, model bahasa yang dioptimalkan di vLLM. Untuk generasi gambar, kualitas serupa juga dicapai dengan sekitar 2 kali lebih sedikit langkah dibanding model generasi spesialis yang sudah ada.

Sementara model omnimodal berbasis AR yang berfokus pada kognisi seperti Qwen3.5-Omni yang baru muncul belakangan ini terutama berfokus pada pemahaman, Dynin-Omni menyatukan pemahaman dan generasi dalam satu arsitektur. Karena alih-alih menghasilkan token secara berurutan, model ini memulihkan keseluruhan sekaligus, ia dapat merespons data nonsekuensial seperti gambar atau video dengan lebih cepat dan lebih alami.

Arsitektur seperti ini menjadi semakin penting di domain seperti agen atau robotika, yang harus memahami beragam masukan secara bersamaan lalu menghasilkan tindakan atau hasil nyata. Berbeda dari pendekatan yang menggabungkan banyak model, satu model menanganinya secara langsung sehingga kompleksitas sistem berkurang dan memberi keuntungan dari sisi biaya maupun kecepatan.

Selain itu, karena arsitekturnya menyatukan pemahaman dan generasi dalam satu framework, ketika modalitas atau tugas baru ditambahkan, tidak perlu menggabungkan model terpisah, dan sistem dapat diperluas secara alami ke berbagai domain dalam struktur yang sama.

Agar arsitektur ini juga dapat digunakan di lingkungan layanan nyata, integrasi ke infrastruktur serving berbasis vLLM, dInfer, dan SGLang sedang berlangsung. Karena satu model menangani input multimodal dan generasi sekaligus, kami memandang infrastruktur inferensi yang efisien juga sebagai elemen penting.

Lebih jauh lagi, berdasarkan model ini kami juga sedang meneliti Dynin-Robotics, yang memperluasnya menjadi model physical AI termasuk untuk lingkungan robotika dan agen. Tujuannya adalah arsitektur end-to-end yang memahami berbagai input sensor secara terpadu dan menghubungkannya ke tindakan nyata.

Ke depannya, kami berencana terus mengembangkan ini melalui riset dan pengembangan berkelanjutan, seperti seri GLM dari Tsinghua University di Tiongkok dan InternLM dari Shanghai AI Laboratory. Jika setelah melihatnya Anda punya ide perbaikan, silakan sampaikan dengan santai 👍

4 komentar

 
runableapp 2026-04-03

Terima kasih. Tentu saja bahasa Korea seharusnya didukung dengan baik, bukan?

Sepertinya ini masalah di huggingface.co, karena muncul error. Saya akan coba menjalankannya secara lokal.

 
jake630 2026-04-05

Fitur bahasa Korea saat ini belum didukung di versi ini. Kami berencana merilis versi yang telah dilatih termasuk bahasa Korea dalam waktu dekat. Terima kasih!

 
neolith 2026-04-02

Seberapa besar rencana scale-up-nya?

 
jake630 2026-04-05

Rencana scale-up yang spesifik saat ini sedang dirancang di dalam tim. Kami berencana untuk terus mengembangkan model ini. Terima kasih.