Qwen3-Omni: Model AI omni native untuk teks, gambar, dan video

(github.com/QwenLM)

12 poin oleh GN⁺ 2025-09-23 | 2 komentar | Bagikan ke WhatsApp

LLM multimodal mutakhir yang memproses teks, gambar, audio, dan video dalam satu model, serta mampu menghasilkan suara secara real-time
Mendukung 119 bahasa teks, 19 bahasa input suara, dan 10 bahasa output suara, sehingga sangat cocok untuk membangun layanan global
Arsitektur model menggunakan desain Thinker–Talker berbasis MoE, yang meningkatkan performa dan efisiensi sekaligus menyediakan percakapan berbasis streaming dan kontrol perilaku yang disesuaikan pengguna
Qwen3-Omni-30B-A3B-Captioner yang dirilis sebagai open source menyediakan fitur caption audio yang detail dengan tingkat halusinasi rendah
Memiliki beragam jalur penerapan layanan nyata yang fleksibel seperti Hugging Face Transformers, vLLM, Docker, dan API, serta fitur yang memudahkan pengembangan

Gambaran umum dan pentingnya Qwen3-Omni

Qwen3-Omni adalah LLM omnimodal multibahasa end-to-end open source yang dikembangkan oleh tim Qwen dari Alibaba Cloud
Proyek ini termasuk langka di antara AI multimodal open source saat ini karena mampu memahami teks, gambar, audio, hingga video secara terpadu dan menghasilkan respons real-time
Dibandingkan open source pesaing, model ini unggul dalam dukungan bahasa yang luas, streaming real-time, dan audio captioning berpresisi tinggi
Memungkinkan realisasi cepat berbagai layanan baru seperti tanya jawab bahasa alami, analisis situasi audio-visual, dan antarmuka multimodal temporal

Fitur utama

Pemrosesan multimodal: menangani input teks, gambar, audio, dan video sekaligus serta menghasilkan respons teks/suara secara real-time
Performa mutakhir: dari 36 benchmark terkait audio/video, 22 mencapai SOTA, total 32 SOTA dalam kategori open source, dan performa ASR serta percakapan suara sebanding dengan Gemini 2.5 Pro
Dukungan bahasa yang luas: mendukung 119 bahasa teks, 19 bahasa input suara, dan 10 bahasa output suara
Streaming real-time: mendukung turn-taking yang alami dan respons instan yang cepat
Kontrol yang disesuaikan pengguna: menyediakan pengendalian perilaku yang rinci dan adaptivitas melalui system prompt
Arsitektur berbasis MoE: desain Thinker–Talker, pretraining AuT, dan struktur multi-codebook untuk mencapai latensi ultra-rendah dan efisiensi tinggi
Model audio caption open source: Qwen3-Omni-30B-A3B-Captioner mendukung deskripsi audio yang detail dan pencegahan halusinasi

Contoh skenario berdasarkan domain yang didukung

Audio: pengenalan suara, terjemahan suara, analisis musik/suara, audio caption, dan lainnya
Visual: OCR gambar kompleks, pengenalan objek, QA berbasis gambar, pemecahan soal matematika, deskripsi video/navigasi, analisis pergantian adegan, dan lainnya
Audio+Visual: QA multimodal, percakapan, pemanggilan suara agen, dan lainnya
Fine-tuning downstream: fine-tuning model caption dengan memanfaatkan Qwen3-Omni-30B-A3B-Instruct

Penjelasan tiap model

Qwen3-Omni-30B-A3B-Instruct: input audio, video, teks + output teks/suara (thinker+talker)
Qwen3-Omni-30B-A3B-Thinking: input audio, video, teks + output teks (khusus thinker, chain-of-thought reasoning)
Qwen3-Omni-30B-A3B-Captioner: input audio→output teks, penjelasan detail dan minimisasi halusinasi (khusus caption)

Lingkungan penggunaan utama dan keunggulannya

Integrasi Hugging Face Transformers: mudah ditanamkan ke dalam kode, menangani berbagai kanal input (B64, URL, dll.) secara fleksibel, mendukung FlashAttention 2
vLLM: unggul dalam latensi rendah dan konkurensi untuk layanan skala besar, inferensi batch cepat, mudah diperluas di lingkungan multi-GPU, serta kuat dalam integrasi server-API
Menyediakan image Docker: meminimalkan konflik lingkungan, memudahkan eksperimen/deployment
DashScope API: API resmi Alibaba, mendukung real-time maupun offline
Demo web/on-premise: dapat dicoba berbasis web tanpa perlu membangun terpisah

Contoh penggunaan nyata dan tips

Algoritme inti dan fitur

Struktur Thinker–Talker memungkinkan reasoning tingkat lanjut dan sintesis suara yang terpisah
Mendukung API yang konsisten dan pemrosesan prompt eksplisit untuk berbagai kombinasi input (teks murni/teks+gambar/audio/video, dll.)
Tersedia opsi penghematan memori bila output suara tidak diinginkan (penghematan memori lebih dari 10GB)
Mendukung berbagai opsi sintesis suara (Ethan, Chelsie, Aiden, dll.), yang dapat dipilih melalui parameter speaker

Contoh batch/percakapan tingkat lanjut

Efisien untuk data besar, benchmark, dan layanan percakapan dengan memproses gabungan beberapa pesan multimodal sekaligus
Menghasilkan jawaban yang disesuaikan untuk tiap pesan (kombinasi teks, gambar, audio, video)

Deployment praktis berbasis vLLM

Memungkinkan inferensi paralel dan tuning memori melalui pengaturan parameter (tensor_parallel_size, max_num_seqs, limit_mm_per_prompt, dll.)
Mendukung percakapan berbasis API di vLLM serve, dan output audio untuk model Instruct direncanakan akan didukung kemudian

API dan lingkungan

Menyediakan dokumentasi API cloud real-time dan offline/per-caption melalui DashScope API (Tiongkok/global)
Fleksibel untuk kebutuhan layanan nyata maupun riset dengan mencakup lingkungan vLLM, Official API, dan Transformers

Spesifikasi/rekomendasi sistem

Panduan memori minimum (68~145GB) berdasarkan presisi BF16 untuk video berdurasi 15~120 detik
Memerlukan lingkungan GPU dan dukungan FlashAttention 2
Tips penggunaan prompt: gunakan instruksi teks yang eksplisit bersama input multimodal

Pemanfaatan agen dan downstream

Dapat membangun berbagai agen seperti pemanggilan fungsi berbasis audio, percakapan/analisis/asisten multimodal real-time, dan audio caption yang detail
Menyediakan contoh kontrol peran serta pengaturan gaya percakapan dan frame melalui system prompt

Penutup

Qwen3-Omni menghadirkan integrasi teks+suara+gambar+video serbaguna berskala terbesar di dunia di antara LLM open source, sehingga ideal untuk layanan web real-time berskala besar, riset, maupun penerapan internal organisasi. Dengan integrasi erat dan kompatibilitas tinggi terhadap vLLM, API, lingkungan Docker, dan lainnya, serta dukungan contoh yang detail, model ini memberi keunggulan besar dalam efisiensi pengembangan dan daya saing.

2 komentar

yeorinhieut 2025-09-24

Hangul - tampaknya didukung ya!

GN⁺ 2025-09-23

Komentar Hacker News

Saat berbicara dalam bahasa Inggris rasanya sangat lambat, tetapi ketika berbicara dalam bahasa Spanyol terasa jauh lebih cepat; sangat mengesankan bahwa fitur luar biasa seperti terjemahan real-time tampaknya akan segera bisa digunakan. Jika lab riset Amerika tidak lebih aktif ikut dalam persaingan open weight, saya jadi merasa pada akhirnya Tiongkok akan menguasai pasar AI. Saya juga terpikir bahwa orang Amerika yang sensitif terhadap privasi atau kepemilikan data pada akhirnya mungkin akan memiliki perangkat seharga 1.000~2.000 dolar di rumah untuk menjalankan model Tiongkok terbuka, dan perubahan ini terasa benar-benar mengejutkan
- Tinggal di Amerika, saya melihat artikel-artikel tentang bagaimana Tiongkok sangat mendorong Linux, arsitektur CPU terbuka seperti RISC-V, dan bahkan model terbuka yang di-host sendiri. Saya mulai merasa justru kita yang tampak seperti “tokoh jahat”
- Saya benar-benar menjalankan dua 3090 dan Qwen3 di rumah, terhubung dengan Home Assistant dan bahkan memanfaatkan perangkat satelit suara esp32. Dari pengalaman saya, semuanya bekerja sangat baik
- Orang Amerika pada umumnya tampaknya hampir tidak mau mengeluarkan tambahan 1.000~2.000 dolar untuk teknologi yang menjamin privasi. Sebagian besar bahkan sudah menyerahkan seluruh audio/video rumah mereka kepada pemerintah tanpa surat perintah melalui kamera IoT seperti Ring demi menghemat 20~200 dolar
Bisa dicoba langsung di https://chat.qwen.ai/, dan harus login dengan Google atau GitHub untuk memakai mode suara. Ada berbagai suara yang tersedia, misalnya Dylan (remaja yang tumbuh di gang-gang Beijing), Peter (ahli sketsa komedi dari Tianjin), Cherry (wanita muda yang ceria dan positif), Ethan (anak laki-laki yang hangat dan penuh semangat), Eric (pria khas dari Chengdu, Sichuan), dan Jada (kakak karismatik dari Shanghai)
- Terutama kalau mengganti bahasa saat menguji suaranya, hasilnya benar-benar lucu. Dalam bahasa Rusia, Ryan terdengar seperti orang Barat yang baru mulai belajar bahasa Rusia sebulan lalu, Dylan terdengar lebih alami, sementara suara-suara lain berbicara bahasa Rusia dengan aksen Asia yang kuat, jadi karakter masing-masing cukup menarik
- Saya hanya melihat Omni Flash, apakah itu memang benar?
Bobot modelnya 70GB, dan ukuran file juga tercantum di Hugging Face (Qwen/Qwen3-Omni-30B-A3B-Instruct), jadi ukurannya cukup mudah diakses untuk dijalankan secara lokal. Saya penasaran apakah port macOS akan segera hadir; untuk saat ini tampaknya NVIDIA GPU masih wajib
- Itu berdasarkan BF16, jadi kalau dikuantisasi (Q4) sepertinya akan muat dengan nyaman di GPU 24GB. Saya kira mirip dengan model-model lain di keluarga 30B-A3B. Saya sempat khawatir ukurannya akan 200B+, jadi ini cukup melegakan
- Saya belum sempat mencobanya karena kekurangan waktu, tetapi akan menarik jika ada upaya menjalankannya bersama Mojo stuff untuk Apple yang dirilis kemarin. Tingkat kematangannya memang belum jelas, tetapi rasanya akan jadi tantangan yang seru
- Saya penasaran apakah ada inference engine yang berjalan di macOS
- Saya ingin tahu apakah ini bisa dijalankan di 5090, atau apakah mungkin menghubungkan beberapa GPU, atau NVIDIA membatasinya
Ada video demo di sini, dan terutama bagian yang menerjemahkan input video-audio ke bahasa lain lalu mengeluarkannya kembali sebagai suara adalah hal paling mengesankan yang pernah saya lihat sejauh ini
Video demo YouTube
Titik leverage yang sebenarnya di bidang ini adalah performa/ukuran. Kalau muncul persaingan open weight, saya rasa inovasi efisiensi akan dipaksa terjadi. Model closed weight juga bisa jadi memiliki keunggulan yang belum terpikirkan. Jika mekanisme inferensi kolektif berbasis klaster berkembang cukup jauh, saya penasaran kapan 8 model 30B pada satu server H100 bisa melampaui 1 model 240B dalam hal akurasi
Karena penasaran saya memasukkan beberapa klip audio sederhana, dan ternyata model ini bisa membedakan alat musik seperti piano dan drum. Saya merasa belum banyak melihat riset multimodal LLM yang berfokus pada pengenalan audio non-ucapan. Akan menarik kalau ada analisis yang lebih mendalam tentang kondisi mutakhir (SOTA)
Saya penasaran apa sebenarnya arti dari "native video support", apakah itu hanya sebatas menafsirkan gambar full-frame berurutan—dengan cara yang bisa melewatkan peristiwa cepat—atau maksudnya teknologi yang lebih kompleks
Saya rasa input suara + output suara adalah perubahan yang sangat besar. Secara teori, kita bisa bercakap lewat suara dan langsung menerjemahkannya ke bahasa saya atau bahasa lawan bicara. Saat ini biasanya perlu beberapa teknologi perantara seperti wake word, speech-to-text, dan text-to-speech, tetapi model ini tampaknya setidaknya punya sekitar 3 versi kelas 32b yang mendukung input dan output suara sekaligus. Tergantung arsitekturnya, ke depan sepertinya ini bisa dijalankan langsung di rumah atau pada perangkat seperti “pemanggang roti AI”
- Jika model seperti ini dihubungkan ke sistem otomasi rumah lewat tool calls, saya rasa peluangnya sangat besar. Sejak ChatGPT mendapatkan fitur ini, saya menunggu layanan lain ikut mendukungnya. Ini akan sangat revolusioner terutama saat tangan sedang tidak bisa dipakai, misalnya saat memasak ("bacakan langkah berikutnya, tangan saya kena daging", "berapa tepung yang dibutuhkan untuk membuat roux?", "saya tidak punya lemon, pengganti yang bagus apa?")
- Di atas segalanya, ini tampaknya akan sangat membantu untuk belajar bahasa, dan sepertinya juga bisa dijalankan secara lokal. Saya akan makin antusias jika para pengembang unsloth ikut menanganinya
Arsitektur thinker/speaker milik Qwen sangat menarik. Ini mirip dengan cara saya membayangkan kognisi multimodal manusia, misalnya foto apel, ejaan "apple", dan bunyinya semuanya dipetakan ke konsep yang sama tanpa harus selalu melewati teks di tengah
- Saya penasaran apakah semua LLM bekerja seperti itu
Saya penasaran apakah ada materi yang bagus untuk mempelajari model multimodal; saya tidak terlalu tahu harus mulai dari mana