- Model terbaru dari tim Alibaba Qwen yang dapat memahami dan menghasilkan teks, gambar, audio, dan video, dengan arsitektur Thinker-Talker yang menerapkan Hybrid-Attention MoE untuk sangat memperkuat kemampuan pemrosesan di semua modalitas
- Menyediakan versi Instruct dalam 3 ukuran: Plus, Flash, dan Light, serta mendukung input long context 256k, audio lebih dari 10 jam, dan pemrosesan video lebih dari 400 detik pada standar 720P
- Qwen3.5-Omni-Plus mencapai SOTA pada 215 benchmark pemahaman audio dan video, dan melampaui Gemini-3.1 Pro di seluruh area pemahaman audio umum, penalaran, terjemahan, dan percakapan
- Dibanding generasi sebelumnya, dukungan multibahasa diperluas secara besar-besaran dengan pengenalan suara untuk 74 bahasa dan 39 dialek bahasa Tionghoa, serta sintesis suara dalam 36 bahasa; juga menambahkan fitur interaktif seperti voice clone, pencarian web, percakapan real-time, dan kontrol emosi/kecepatan/volume
- Teknologi ARIA (Adaptive Rate Interleave Alignment) menyelesaikan masalah kehilangan dan salah baca yang muncul dari perbedaan efisiensi encoding token teks dan suara, sehingga secara drastis meningkatkan kealamian dan stabilitas sintesis suara streaming
Gambaran model
- Qwen3.5-Omni adalah LLM omni-modal penuh terbaru dari Qwen yang memproses teks, gambar, audio, dan video
- Baik Thinker maupun Talker mengadopsi struktur Hybrid-Attention MoE untuk meningkatkan performa pemrosesan multimodal
- Tersedia dalam 3 versi Instruct: Plus, Flash, dan Light, dan semuanya mendukung input long context 256k
- Input audio: lebih dari 10 jam
- Input video pada 720P·1FPS: lebih dari 400 detik
- Melakukan pre-training omni-modal dengan data teks dan visual berskala besar, serta lebih dari 100 juta jam data audio-visual
- Saat ini tersedia melalui Offline API dan Realtime API
Performa utama (Offline)
- Qwen3.5-Omni-Plus mencapai SOTA pada 215 subtugas/benchmark untuk pemahaman, penalaran, dan interaksi audio-visual
- Termasuk 3 benchmark audio-visual, 5 benchmark audio, 8 benchmark ASR, 156 S2TT per bahasa, dan 43 ASR per bahasa
- Melampaui Gemini-3.1 Pro di seluruh area pemahaman audio umum, penalaran, pengenalan, terjemahan, dan percakapan, serta mencapai tingkat pemahaman audio-visual keseluruhan yang setara dengan Gemini-3.1 Pro
- Performa visual dan teks setara dengan model Qwen3.5 berukuran sama
- Fitur audio-visual captioning: mendukung caption yang rinci dan terstruktur, segmentasi otomatis dan anotasi timestamp, serta deskripsi tingkat skenario seperti karakter yang muncul dan hubungan audio
- Audio-Visual Vibe Coding: menunjukkan kemampuan omni-modal baru untuk langsung menghasilkan kode berdasarkan perintah audio-visual
Fitur utama (Realtime)
- Semantic Interruption: pengenalan niat turn-taking berbasis Odin untuk mencegah putus percakapan yang tidak perlu akibat backchanneling dan noise latar; disertakan secara default di API
- Dukungan native untuk WebSearch dan FunctionCall kompleks: model secara mandiri memutuskan apakah perlu memanggil pencarian web untuk menjawab kueri secara real-time
- Kontrol suara end-to-end: mengikuti instruksi seperti manusia dan bebas mengontrol volume, kecepatan, serta emosi ucapan
- Voice Clone: pengguna dapat mengunggah suara untuk menyesuaikan suara AI assistant; semuanya tersedia melalui Realtime API
- Gaya percakapan dan identitas model dapat diubah dengan memodifikasi system prompt
Teknologi ARIA
- Mengusulkan teknologi ARIA (Adaptive Rate Interleave Alignment) untuk mengatasi masalah kehilangan, salah baca, dan pelafalan yang tidak jelas akibat perbedaan efisiensi encoding antara token teks dan suara dalam interaksi suara streaming
- Menyelaraskan unit teks dan suara secara dinamis (interleave) untuk sangat meningkatkan kealamian dan stabilitas sintesis suara sambil mempertahankan performa real-time
- Menggantikan pendekatan rasio tokenizer teks-suara tetap 1:1 pada Qwen3-Omni generasi sebelumnya
Perubahan arsitektur (dibanding Qwen3-Omni)
- Backbone: MoE → Hybrid-MoE
- Panjang sekuens: 32k → 256k (audio 10 jam, video 400 detik)
- Cakupan captioning: khusus audio → audio-visual
- Semantic Interruption: tidak didukung → didukung
- WebSearch/Tool: tidak didukung → didukung
- Kontrol/clone suara: tidak didukung → didukung
- Struktur Talker: Dual-Track Autoregression → Interleave + ARIA
Perluasan dukungan multibahasa
- Pengenalan suara (ASR)
- Sebelumnya: 11 bahasa multibahasa + 8 dialek bahasa Tionghoa
- Sekarang: 74 bahasa multibahasa + 39 dialek bahasa Tionghoa
- Sintesis suara (TTS)
- Sebelumnya: 29 bahasa multibahasa + 7 dialek bahasa Tionghoa
- Sekarang: pembuatan suara dalam 36 bahasa multibahasa (daftar sintesis dialek tidak disebutkan terpisah dalam sumber asli)
Angka benchmark (kutipan utama)
- Audio-visual (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- DailyOmni: 84.6 vs 82.7
- AVUT: 85.0 vs 85.6
- VideoMME (with audio): 83.7 vs 89.0
- OmniGAIA: 57.2 vs 68.9
- Audio (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- MMAU: 82.2 vs 81.1
- VoiceBench: 93.1 vs 88.9
- Fleurs S2TT (xx↔en top59): 35.4 vs 34.6
- Stabilitas sintesis suara WER↓ (Custom Voice, Seed-hard)
- Qwen3.5-Omni-Plus: 6.24
- ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19
API dan cara penggunaan
- Offline API: mendukung analisis video dan audio, serta pencarian web (parameter
enable_search); dipanggil dengan SDK Python yang kompatibel dengan OpenAI
- Realtime API: percakapan real-time berbasis WebSocket; menggunakan dashscope SDK dan mendukung streaming input/output suara
- Model ID yang tersedia:
qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
- Mendukung endpoint terpisah untuk Tiongkok daratan (Beijing) dan internasional (Singapura)
Daftar voice
- Voice kustom bahasa Tionghoa dan Inggris: Tina, Cindy, Liora Mira, Sunnybobi, Raymond, total 5 jenis
- Voice skenario seperti emosi dan role-play: Ethan, Harvey, Maia, dan lainnya, total 19 jenis (bahasa Tionghoa dan Inggris)
- Voice dialek bahasa Tionghoa: dialek Sichuan, dialek Beijing, dialek Tianjin, Kanton, dan lainnya, total 8 jenis
- Voice multibahasa: bahasa Korea (Sohee), bahasa Jerman (Lenn), bahasa Jepang (Ono Anna), bahasa Spanyol, bahasa Prancis, bahasa Rusia, dan lainnya; total 23 jenis untuk 23 bahasa
Belum ada komentar.