Qwen3-Omni-Flash-2025-12-01: model besar multimodal native generasi berikutnya

(qwen.ai)

1 poin oleh GN⁺ 2025-12-12 | 1 komentar | Bagikan ke WhatsApp

Qwen3-Omni-Flash-2025-12-01 adalah model multimodal generasi berikutnya yang memproses teks, gambar, audio, dan video secara bersamaan serta menghasilkan output teks dan suara melalui streaming real-time
Kemampuan memahami perintah audio-visual dan stabilitas percakapan meningkat signifikan, sehingga menghadirkan interaksi suara-video yang alami dan konsisten
Dengan fitur kontrol penuh system prompt, penyesuaian detail seperti gaya persona, cara bicara, dan panjang output menjadi memungkinkan
Mendukung teks dalam 119 bahasa, pengenalan suara dalam 19 bahasa, dan sintesis suara dalam 10 bahasa, sekaligus mengatasi masalah konsistensi multibahasa
Performa meningkat di seluruh area seperti penalaran logis, pembuatan kode, serta pemahaman visual dan suara, sehingga memberikan pengalaman interaksi AI yang alami dan presisi

Gambaran umum Qwen3-Omni-Flash-2025-12-01

Qwen3-Omni adalah model besar multimodal native yang memproses berbagai input seperti teks, gambar, audio, dan video, serta menghasilkan output teks dan suara alami secara real-time
Versi kali ini, Qwen3-Omni-Flash-2025-12-01, merupakan versi upgrade menyeluruh yang dibangun di atas Qwen3-Omni sebelumnya
Kinerja dan efisiensi model ditingkatkan secara keseluruhan untuk menghadirkan kemampuan pemrosesan multimodal yang lebih cepat dan akurat

Peningkatan fitur utama

Penguatan interaksi audio-visual
- Kemampuan memahami dan menjalankan perintah suara dan video meningkat besar, sehingga mengatasi masalah penurunan kecerdasan dalam situasi percakapan lisan sehari-hari
- Stabilitas dan konsistensi percakapan audio-visual multi-putaran meningkat, memungkinkan interaksi yang alami
Penguatan kontrol system prompt
- System prompt dapat sepenuhnya dikustomisasi sehingga perilaku model bisa dikendalikan dengan presisi
- Elemen detail seperti gaya persona (misalnya manis, cool, bergaya animasi), cara bicara, dan panjang output dapat disesuaikan secara rinci
Peningkatan keandalan dukungan multibahasa
- Mendukung interaksi berbasis teks dalam 119 bahasa, pengenalan suara dalam 19 bahasa, dan sintesis suara dalam 10 bahasa
- Masalah ketidakstabilan bahasa pada versi sebelumnya telah diatasi, sehingga menghasilkan performa multibahasa yang akurat dan konsisten
Sintesis suara yang alami
- Kecepatan bicara, jeda, dan intonasi disesuaikan otomatis berdasarkan konteks teks untuk menghasilkan kualitas suara yang menyerupai manusia
- Menghilangkan suara yang lambat atau terdengar mekanis, dan menghadirkan output suara yang ekspresif dan alami

Indikator peningkatan performa

Penguatan kemampuan memahami dan menghasilkan teks
- Penalaran logis ZebraLogic +5.6, pembuatan kode LiveCodeBench-v6 +9.3, MultiPL-E +2.7, dan kualitas penulisan WritingBench +2.2 mengalami peningkatan
- Keandalan dalam menjalankan instruksi kompleks multi-tahap juga meningkat
Peningkatan akurasi pemahaman suara
- Tingkat kesalahan kata menurun di Fleurs-zh, dan VoiceBench +3.2 meningkat
- Kemampuan memahami suara dalam lingkungan percakapan nyata menjadi lebih kuat
Peningkatan kualitas sintesis suara
- Menghadirkan intonasi dan ritme yang alami dalam lingkungan bahasa Mandarin maupun multibahasa
- Menjamin kualitas ujaran yang mirip dengan suara manusia
Penguatan pemahaman gambar
- Dalam tugas penalaran visual, MMMU +4.7, MMMU-Pro +4.8, dan MathVision_full +2.2 meningkat
- Kemampuan menafsirkan konten visual kompleks seperti diagram dan bentuk matematis diperkuat
Peningkatan pemahaman video
- MLVU +1.6 meningkat, memperkuat kemampuan memahami makna video
- Sinkronisasi audio-visual yang lebih baik memperkuat fondasi untuk percakapan video real-time

Rencana ke depan

Akan mengumpulkan umpan balik pengguna dan contoh aplikasi inovatif berbasis Qwen3-Omni
Ke depan, fitur akan diperluas ke pengenalan suara multi-pembicara (ASR), video OCR, pembelajaran mandiri audio-video, serta dukungan workflow berbasis agen dan pemanggilan fungsi

Informasi kutipan

Saat digunakan untuk riset, disarankan memakai kutipan berikut
- @misc{qwen3_omni_20251201, author={{Qwen Team, Alibaba}}, title={{Qwen3-Omni-Flash-2025-12-01：Hear You. See You. Follow Smarter!}}, year={2025}, url={https://qwen.ai/blog?id=qwen3-omni-20251201}}

1 komentar

GN⁺ 2025-12-12

Komentar Hacker News

Model ini memakai arsitektur MoE 30B parameter, dengan parameter aktif di kisaran 3B
Sebagai penerus model omni 7B sebelumnya, performanya kemungkinan bisa diharapkan mirip dengan Qwen2.5-Omni-7B
Karena belum banyak model omni yang dirilis, menurut saya ini rilis yang cukup berarti
Secara pribadi, saya ingin memakai model ini sebagai pengganti antarmuka input/output (keyboard·monitor), lalu memanfaatkan arsitektur yang memproses komputasi dengan teknologi lain di backend
Ada juga versi reasoning, dan sepertinya cukup menarik karena saat voice chat model ini bisa mengucapkan token ‘sedang berpikir’
- Model ini berupa tumpukan beberapa komponen
  Terdiri dari encoder audio 650M, encoder vision 540M, LLM 30B-A3B, audio LLM 3B-A0.3B, serta 80M Transformer/200M ConvNet yang mengubah token audio menjadi gelombang suara
  Ini adalah versi pembaruan bobot nonpublik dari Qwen3-Omni, dan sebelumnya yang sudah dirilis adalah Qwen/Qwen3-Omni-30B-A3B-Instruct
  Saat ini model ini belum didukung penuh oleh framework inferensi open source, jadi hanya bisa berjalan sangat lambat di transformers
- Jika melihat dokumentasi Alibaba Cloud, model ini bukan open source
- Saya tidak bisa menemukan bobot versi baru ini di mana pun. Saya sudah memeriksa Modelscope dan Hugging Face tetapi tidak ada, dan tampaknya context window diperluas menjadi 200K+ token
- Menarik bahwa versi reasoning mengucapkan token berpikir. Dulu Claude juga pernah bekerja seperti ini
- Akan seru kalau token berpikir itu diberi efek seperti reverb, jadi kita mungkin bisa mendengar ‘suara berpikir’ modelnya
Saya penasaran apakah Qwen3-Omni mendukung percakapan real-time seperti GPT-4o
Dari dokumentasinya terlihat seperti tidak, tetapi ternyata memang didukung
Saya juga penasaran apakah ada yang pernah menjalankannya secara lokal di lingkungan non-NVIDIA
- Di situs chat resmi masih belum ada model audio→audio
  Saya biasanya mengeceknya dengan tes homonim (record vs record) atau meminta perubahan tone suara
- Karena framework inferensi seperti vLLM atau SGLang belum mendukung penuh, di lingkungan non-NVIDIA hal ini tidak memungkinkan
- Meski begitu, tampaknya fitur speech-to-speech native memang ada
- Saya rasa masih belum ada aplikasi voice chat lokal yang benar-benar matang
  Yang seperti Silly Tavern pun hampir berada di level unusable
  Namun model suara lokal seperti inilah yang akan menjadi inti dari workflow berbasis bahasa alami
Saya penasaran apakah di Macbook bisa menjalankan model Omni dengan GGUF atau MLX
Dengan LMStudio atau Llama.cpp mungkin bisa, tetapi tidak mendukung streaming mikrofon atau webcam
Qwen biasanya menyediakan contoh Python berbasis Cuda, jadi saya sedang mencari apakah ada alternatif open source
- Jika melihat panduan penggunaan vLLM dan demo web UI lokal, sepertinya bisa dihubungkan
- Ini bisa dilakukan dengan whisper.cpp
Saya cukup sering memakai Gemini Flash Live 2.5
Saya berharap versi 3.0 segera keluar
Di benchmark katanya lebih baik daripada Gemini Live, tetapi tetap harus diuji langsung
Secara pribadi, saya selalu merasa model Qwen Omni agak kurang memuaskan di lingkungan yang berpusat pada bahasa Inggris
32B itu cukup kecil, jadi sepertinya bisa dijalankan bahkan di perangkat dengan RAM 64GB
Kalau sudah masuk ke Ollama, saya berencana mengujinya sendiri
- Model Qwen3-Omni-30B-A3B di Hugging Face tampaknya diperbarui pada bulan September
  Tetapi di benchmark makalah, Qwen3-Omni-Flash-2025-12-01 disebut memiliki performa lebih tinggi daripada Qwen3-235B-A22B
  Saya bingung bagaimana itu bisa terjadi padahal ini model 30B
  Versi FLASH tidak ada di Hugging Face, jadi kemungkinan besar ini model khusus API
- Saya menjalankannya dengan baik di Mac 48GB RAM berkat unified memory
Awalnya saya kira ini khusus API, tetapi ternyata ada modelnya di koleksi Hugging Face
Namun kenyataannya itu versi sebelumnya, dan demo HF juga memanggil API sehingga bukan komputasi lokal
Kesan yang kuat adalah Qwen3-Omni mengungguli 2.5 Flash di semua benchmark
Sepertinya sekarang saatnya memindahkan workload LLM ke GPU lokal
- Tetapi Anda tetap harus melakukan benchmark dengan dataset sendiri
  Benchmark publik sulit dipercaya, dan kalau memilih model mentah-mentah berdasarkan itu Anda bisa kecewa
- Untuk tugas teks saja, lebih efisien memakai Qwen3-30B-A3B daripada Omni
- Benchmark gambar tampaknya dibandingkan dengan Qwen 2.0, jadi agak meragukan
Saya penasaran kenapa gaya bicara model suara terasa kurang hidup
Khususnya pada bagian harga buah, meskipun terdengar sepenuhnya alami, saya tetap bisa langsung tahu itu AI
Mungkin karena intonasinya atau kecepatan bicara yang terlalu konsisten
- Saya justru merasa lebih baik kalau emosinya tidak berlebihan
  Ekspresi emosi yang terlalu kuat terasa artifisial
  Hanya saja, pengucapan bahasa Jermannya yang salah memang agak disayangkan
- Mungkin ini bukan multimodal end-to-end sepenuhnya
  Sepertinya ada tahap sintesis suara terpisah, sehingga hasilnya jadi seperti itu
  Ini bisa dicek lewat tes nyanyian atau intonasi
- Kemungkinan karena terlalu banyak fungsi seperti vision, audio, multibahasa, kontrol intonasi, dan lain-lain dimasukkan ke dalam 30B parameter
  Model suara ChatGPT terasa paling alami
- Fakta bahwa kita bisa langsung mengenali gaya bicara AI justru mungkin hal yang baik
- Saya justru lebih suka kalau ada aksen (accent) khas AI
Dalam output suara real-time, ada masalah bahwa sulit membedakan token ‘sedang berpikir’ dan ujaran untuk pengguna
- Cara sederhananya adalah memisahkan stream output sebelum TTS
  Token reasoning/structured diarahkan ke satu sisi, dan teks untuk pengguna ke sisi lain
  Lalu hanya yang kedua yang disintesis menjadi suara, sehingga masalah ‘sedang berpikir’ terdengar bisa diatasi
Sepertinya Qwen sengaja dibuat ambigu soal apakah bobotnya dibuka atau tidak
Kenyataannya sebagian besar tidak dipublikasikan, dan sering kali terlihat seolah dirilis padahal sebenarnya khusus API
Akibatnya pengguna jadi membuang-buang usaha untuk mencari modelnya

Qwen3-Omni-Flash-2025-12-01: model besar multimodal native generasi berikutnya

Gambaran umum Qwen3-Omni-Flash-2025-12-01

Peningkatan fitur utama

Indikator peningkatan performa

Rencana ke depan

Informasi kutipan

Bacaan terkait

1 komentar

Komentar Hacker News