- Qwen3-Omni-Flash-2025-12-01 adalah model multimodal generasi berikutnya yang memproses teks, gambar, audio, dan video secara bersamaan serta menghasilkan output teks dan suara melalui streaming real-time
- Kemampuan memahami perintah audio-visual dan stabilitas percakapan meningkat signifikan, sehingga menghadirkan interaksi suara-video yang alami dan konsisten
- Dengan fitur kontrol penuh system prompt, penyesuaian detail seperti gaya persona, cara bicara, dan panjang output menjadi memungkinkan
- Mendukung teks dalam 119 bahasa, pengenalan suara dalam 19 bahasa, dan sintesis suara dalam 10 bahasa, sekaligus mengatasi masalah konsistensi multibahasa
- Performa meningkat di seluruh area seperti penalaran logis, pembuatan kode, serta pemahaman visual dan suara, sehingga memberikan pengalaman interaksi AI yang alami dan presisi
Gambaran umum Qwen3-Omni-Flash-2025-12-01
- Qwen3-Omni adalah model besar multimodal native yang memproses berbagai input seperti teks, gambar, audio, dan video, serta menghasilkan output teks dan suara alami secara real-time
- Versi kali ini, Qwen3-Omni-Flash-2025-12-01, merupakan versi upgrade menyeluruh yang dibangun di atas Qwen3-Omni sebelumnya
- Kinerja dan efisiensi model ditingkatkan secara keseluruhan untuk menghadirkan kemampuan pemrosesan multimodal yang lebih cepat dan akurat
Peningkatan fitur utama
-
Penguatan interaksi audio-visual
- Kemampuan memahami dan menjalankan perintah suara dan video meningkat besar, sehingga mengatasi masalah penurunan kecerdasan dalam situasi percakapan lisan sehari-hari
- Stabilitas dan konsistensi percakapan audio-visual multi-putaran meningkat, memungkinkan interaksi yang alami
-
Penguatan kontrol system prompt
- System prompt dapat sepenuhnya dikustomisasi sehingga perilaku model bisa dikendalikan dengan presisi
- Elemen detail seperti gaya persona (misalnya manis, cool, bergaya animasi), cara bicara, dan panjang output dapat disesuaikan secara rinci
-
Peningkatan keandalan dukungan multibahasa
- Mendukung interaksi berbasis teks dalam 119 bahasa, pengenalan suara dalam 19 bahasa, dan sintesis suara dalam 10 bahasa
- Masalah ketidakstabilan bahasa pada versi sebelumnya telah diatasi, sehingga menghasilkan performa multibahasa yang akurat dan konsisten
-
Sintesis suara yang alami
- Kecepatan bicara, jeda, dan intonasi disesuaikan otomatis berdasarkan konteks teks untuk menghasilkan kualitas suara yang menyerupai manusia
- Menghilangkan suara yang lambat atau terdengar mekanis, dan menghadirkan output suara yang ekspresif dan alami
Indikator peningkatan performa
-
Penguatan kemampuan memahami dan menghasilkan teks
- Penalaran logis ZebraLogic +5.6, pembuatan kode LiveCodeBench-v6 +9.3, MultiPL-E +2.7, dan kualitas penulisan WritingBench +2.2 mengalami peningkatan
- Keandalan dalam menjalankan instruksi kompleks multi-tahap juga meningkat
-
Peningkatan akurasi pemahaman suara
- Tingkat kesalahan kata menurun di Fleurs-zh, dan VoiceBench +3.2 meningkat
- Kemampuan memahami suara dalam lingkungan percakapan nyata menjadi lebih kuat
-
Peningkatan kualitas sintesis suara
- Menghadirkan intonasi dan ritme yang alami dalam lingkungan bahasa Mandarin maupun multibahasa
- Menjamin kualitas ujaran yang mirip dengan suara manusia
-
Penguatan pemahaman gambar
- Dalam tugas penalaran visual, MMMU +4.7, MMMU-Pro +4.8, dan MathVision_full +2.2 meningkat
- Kemampuan menafsirkan konten visual kompleks seperti diagram dan bentuk matematis diperkuat
-
Peningkatan pemahaman video
- MLVU +1.6 meningkat, memperkuat kemampuan memahami makna video
- Sinkronisasi audio-visual yang lebih baik memperkuat fondasi untuk percakapan video real-time
Rencana ke depan
- Akan mengumpulkan umpan balik pengguna dan contoh aplikasi inovatif berbasis Qwen3-Omni
- Ke depan, fitur akan diperluas ke pengenalan suara multi-pembicara (ASR), video OCR, pembelajaran mandiri audio-video, serta dukungan workflow berbasis agen dan pemanggilan fungsi
Informasi kutipan
- Saat digunakan untuk riset, disarankan memakai kutipan berikut
@misc{qwen3_omni_20251201, author={{Qwen Team, Alibaba}}, title={{Qwen3-Omni-Flash-2025-12-01:Hear You. See You. Follow Smarter!}}, year={2025}, url={https://qwen.ai/blog?id=qwen3-omni-20251201}}
Belum ada komentar.