- Qwen3-Omni-Flash-2025-12-01 adalah model multimodal generasi berikutnya yang memproses teks, gambar, audio, dan video secara bersamaan serta menghasilkan output teks dan suara melalui streaming real-time
- Kemampuan memahami perintah audio-visual dan stabilitas percakapan meningkat signifikan, sehingga menghadirkan interaksi suara-video yang alami dan konsisten
- Dengan fitur kontrol penuh system prompt, penyesuaian detail seperti gaya persona, cara bicara, dan panjang output menjadi memungkinkan
- Mendukung teks dalam 119 bahasa, pengenalan suara dalam 19 bahasa, dan sintesis suara dalam 10 bahasa, sekaligus mengatasi masalah konsistensi multibahasa
- Performa meningkat di seluruh area seperti penalaran logis, pembuatan kode, serta pemahaman visual dan suara, sehingga memberikan pengalaman interaksi AI yang alami dan presisi
Gambaran umum Qwen3-Omni-Flash-2025-12-01
- Qwen3-Omni adalah model besar multimodal native yang memproses berbagai input seperti teks, gambar, audio, dan video, serta menghasilkan output teks dan suara alami secara real-time
- Versi kali ini, Qwen3-Omni-Flash-2025-12-01, merupakan versi upgrade menyeluruh yang dibangun di atas Qwen3-Omni sebelumnya
- Kinerja dan efisiensi model ditingkatkan secara keseluruhan untuk menghadirkan kemampuan pemrosesan multimodal yang lebih cepat dan akurat
Peningkatan fitur utama
-
Penguatan interaksi audio-visual
- Kemampuan memahami dan menjalankan perintah suara dan video meningkat besar, sehingga mengatasi masalah penurunan kecerdasan dalam situasi percakapan lisan sehari-hari
- Stabilitas dan konsistensi percakapan audio-visual multi-putaran meningkat, memungkinkan interaksi yang alami
-
Penguatan kontrol system prompt
- System prompt dapat sepenuhnya dikustomisasi sehingga perilaku model bisa dikendalikan dengan presisi
- Elemen detail seperti gaya persona (misalnya manis, cool, bergaya animasi), cara bicara, dan panjang output dapat disesuaikan secara rinci
-
Peningkatan keandalan dukungan multibahasa
- Mendukung interaksi berbasis teks dalam 119 bahasa, pengenalan suara dalam 19 bahasa, dan sintesis suara dalam 10 bahasa
- Masalah ketidakstabilan bahasa pada versi sebelumnya telah diatasi, sehingga menghasilkan performa multibahasa yang akurat dan konsisten
-
Sintesis suara yang alami
- Kecepatan bicara, jeda, dan intonasi disesuaikan otomatis berdasarkan konteks teks untuk menghasilkan kualitas suara yang menyerupai manusia
- Menghilangkan suara yang lambat atau terdengar mekanis, dan menghadirkan output suara yang ekspresif dan alami
Indikator peningkatan performa
-
Penguatan kemampuan memahami dan menghasilkan teks
- Penalaran logis ZebraLogic +5.6, pembuatan kode LiveCodeBench-v6 +9.3, MultiPL-E +2.7, dan kualitas penulisan WritingBench +2.2 mengalami peningkatan
- Keandalan dalam menjalankan instruksi kompleks multi-tahap juga meningkat
-
Peningkatan akurasi pemahaman suara
- Tingkat kesalahan kata menurun di Fleurs-zh, dan VoiceBench +3.2 meningkat
- Kemampuan memahami suara dalam lingkungan percakapan nyata menjadi lebih kuat
-
Peningkatan kualitas sintesis suara
- Menghadirkan intonasi dan ritme yang alami dalam lingkungan bahasa Mandarin maupun multibahasa
- Menjamin kualitas ujaran yang mirip dengan suara manusia
-
Penguatan pemahaman gambar
- Dalam tugas penalaran visual, MMMU +4.7, MMMU-Pro +4.8, dan MathVision_full +2.2 meningkat
- Kemampuan menafsirkan konten visual kompleks seperti diagram dan bentuk matematis diperkuat
-
Peningkatan pemahaman video
- MLVU +1.6 meningkat, memperkuat kemampuan memahami makna video
- Sinkronisasi audio-visual yang lebih baik memperkuat fondasi untuk percakapan video real-time
Rencana ke depan
- Akan mengumpulkan umpan balik pengguna dan contoh aplikasi inovatif berbasis Qwen3-Omni
- Ke depan, fitur akan diperluas ke pengenalan suara multi-pembicara (ASR), video OCR, pembelajaran mandiri audio-video, serta dukungan workflow berbasis agen dan pemanggilan fungsi
Informasi kutipan
- Saat digunakan untuk riset, disarankan memakai kutipan berikut
@misc{qwen3_omni_20251201, author={{Qwen Team, Alibaba}}, title={{Qwen3-Omni-Flash-2025-12-01:Hear You. See You. Follow Smarter!}}, year={2025}, url={https://qwen.ai/blog?id=qwen3-omni-20251201}}
1 komentar
Komentar Hacker News
Model ini memakai arsitektur MoE 30B parameter, dengan parameter aktif di kisaran 3B
Sebagai penerus model omni 7B sebelumnya, performanya kemungkinan bisa diharapkan mirip dengan Qwen2.5-Omni-7B
Karena belum banyak model omni yang dirilis, menurut saya ini rilis yang cukup berarti
Secara pribadi, saya ingin memakai model ini sebagai pengganti antarmuka input/output (keyboard·monitor), lalu memanfaatkan arsitektur yang memproses komputasi dengan teknologi lain di backend
Ada juga versi reasoning, dan sepertinya cukup menarik karena saat voice chat model ini bisa mengucapkan token ‘sedang berpikir’
Terdiri dari encoder audio 650M, encoder vision 540M, LLM 30B-A3B, audio LLM 3B-A0.3B, serta 80M Transformer/200M ConvNet yang mengubah token audio menjadi gelombang suara
Ini adalah versi pembaruan bobot nonpublik dari Qwen3-Omni, dan sebelumnya yang sudah dirilis adalah Qwen/Qwen3-Omni-30B-A3B-Instruct
Saat ini model ini belum didukung penuh oleh framework inferensi open source, jadi hanya bisa berjalan sangat lambat di transformers
Saya penasaran apakah Qwen3-Omni mendukung percakapan real-time seperti GPT-4o
Dari dokumentasinya terlihat seperti tidak, tetapi ternyata memang didukung
Saya juga penasaran apakah ada yang pernah menjalankannya secara lokal di lingkungan non-NVIDIA
Saya biasanya mengeceknya dengan tes homonim (
recordvsrecord) atau meminta perubahan tone suaraYang seperti Silly Tavern pun hampir berada di level unusable
Namun model suara lokal seperti inilah yang akan menjadi inti dari workflow berbasis bahasa alami
Saya penasaran apakah di Macbook bisa menjalankan model Omni dengan GGUF atau MLX
Dengan LMStudio atau Llama.cpp mungkin bisa, tetapi tidak mendukung streaming mikrofon atau webcam
Qwen biasanya menyediakan contoh Python berbasis Cuda, jadi saya sedang mencari apakah ada alternatif open source
Saya cukup sering memakai Gemini Flash Live 2.5
Saya berharap versi 3.0 segera keluar
Di benchmark katanya lebih baik daripada Gemini Live, tetapi tetap harus diuji langsung
Secara pribadi, saya selalu merasa model Qwen Omni agak kurang memuaskan di lingkungan yang berpusat pada bahasa Inggris
32B itu cukup kecil, jadi sepertinya bisa dijalankan bahkan di perangkat dengan RAM 64GB
Kalau sudah masuk ke Ollama, saya berencana mengujinya sendiri
Tetapi di benchmark makalah, Qwen3-Omni-Flash-2025-12-01 disebut memiliki performa lebih tinggi daripada Qwen3-235B-A22B
Saya bingung bagaimana itu bisa terjadi padahal ini model 30B
Versi FLASH tidak ada di Hugging Face, jadi kemungkinan besar ini model khusus API
Awalnya saya kira ini khusus API, tetapi ternyata ada modelnya di koleksi Hugging Face
Namun kenyataannya itu versi sebelumnya, dan demo HF juga memanggil API sehingga bukan komputasi lokal
Kesan yang kuat adalah Qwen3-Omni mengungguli 2.5 Flash di semua benchmark
Sepertinya sekarang saatnya memindahkan workload LLM ke GPU lokal
Benchmark publik sulit dipercaya, dan kalau memilih model mentah-mentah berdasarkan itu Anda bisa kecewa
Saya penasaran kenapa gaya bicara model suara terasa kurang hidup
Khususnya pada bagian harga buah, meskipun terdengar sepenuhnya alami, saya tetap bisa langsung tahu itu AI
Mungkin karena intonasinya atau kecepatan bicara yang terlalu konsisten
Ekspresi emosi yang terlalu kuat terasa artifisial
Hanya saja, pengucapan bahasa Jermannya yang salah memang agak disayangkan
Sepertinya ada tahap sintesis suara terpisah, sehingga hasilnya jadi seperti itu
Ini bisa dicek lewat tes nyanyian atau intonasi
Model suara ChatGPT terasa paling alami
Dalam output suara real-time, ada masalah bahwa sulit membedakan token ‘sedang berpikir’ dan ujaran untuk pengguna
Token reasoning/structured diarahkan ke satu sisi, dan teks untuk pengguna ke sisi lain
Lalu hanya yang kedua yang disintesis menjadi suara, sehingga masalah ‘sedang berpikir’ terdengar bisa diatasi
Sepertinya Qwen sengaja dibuat ambigu soal apakah bobotnya dibuka atau tidak
Kenyataannya sebagian besar tidak dipublikasikan, dan sering kali terlihat seolah dirilis padahal sebenarnya khusus API
Akibatnya pengguna jadi membuang-buang usaha untuk mencari modelnya