Qwen3.5-Omni: rilis LLM omni-modal penuh yang memproses teks, gambar, audio, dan video

(qwen.ai)

7 poin oleh GN⁺ 2026-03-31 | Belum ada komentar. | Bagikan ke WhatsApp

Model terbaru dari tim Alibaba Qwen yang dapat memahami dan menghasilkan teks, gambar, audio, dan video, dengan arsitektur Thinker-Talker yang menerapkan Hybrid-Attention MoE untuk sangat memperkuat kemampuan pemrosesan di semua modalitas
Menyediakan versi Instruct dalam 3 ukuran: Plus, Flash, dan Light, serta mendukung input long context 256k, audio lebih dari 10 jam, dan pemrosesan video lebih dari 400 detik pada standar 720P
Qwen3.5-Omni-Plus mencapai SOTA pada 215 benchmark pemahaman audio dan video, dan melampaui Gemini-3.1 Pro di seluruh area pemahaman audio umum, penalaran, terjemahan, dan percakapan
Dibanding generasi sebelumnya, dukungan multibahasa diperluas secara besar-besaran dengan pengenalan suara untuk 74 bahasa dan 39 dialek bahasa Tionghoa, serta sintesis suara dalam 36 bahasa; juga menambahkan fitur interaktif seperti voice clone, pencarian web, percakapan real-time, dan kontrol emosi/kecepatan/volume
Teknologi ARIA (Adaptive Rate Interleave Alignment) menyelesaikan masalah kehilangan dan salah baca yang muncul dari perbedaan efisiensi encoding token teks dan suara, sehingga secara drastis meningkatkan kealamian dan stabilitas sintesis suara streaming

Gambaran model

Qwen3.5-Omni adalah LLM omni-modal penuh terbaru dari Qwen yang memproses teks, gambar, audio, dan video
Baik Thinker maupun Talker mengadopsi struktur Hybrid-Attention MoE untuk meningkatkan performa pemrosesan multimodal
Tersedia dalam 3 versi Instruct: Plus, Flash, dan Light, dan semuanya mendukung input long context 256k
- Input audio: lebih dari 10 jam
- Input video pada 720P·1FPS: lebih dari 400 detik
Melakukan pre-training omni-modal dengan data teks dan visual berskala besar, serta lebih dari 100 juta jam data audio-visual
Saat ini tersedia melalui Offline API dan Realtime API

Qwen3.5-Omni-Plus mencapai SOTA pada 215 subtugas/benchmark untuk pemahaman, penalaran, dan interaksi audio-visual
- Termasuk 3 benchmark audio-visual, 5 benchmark audio, 8 benchmark ASR, 156 S2TT per bahasa, dan 43 ASR per bahasa
Melampaui Gemini-3.1 Pro di seluruh area pemahaman audio umum, penalaran, pengenalan, terjemahan, dan percakapan, serta mencapai tingkat pemahaman audio-visual keseluruhan yang setara dengan Gemini-3.1 Pro
Performa visual dan teks setara dengan model Qwen3.5 berukuran sama
Fitur audio-visual captioning: mendukung caption yang rinci dan terstruktur, segmentasi otomatis dan anotasi timestamp, serta deskripsi tingkat skenario seperti karakter yang muncul dan hubungan audio
Audio-Visual Vibe Coding: menunjukkan kemampuan omni-modal baru untuk langsung menghasilkan kode berdasarkan perintah audio-visual

Semantic Interruption: pengenalan niat turn-taking berbasis Odin untuk mencegah putus percakapan yang tidak perlu akibat backchanneling dan noise latar; disertakan secara default di API
Dukungan native untuk WebSearch dan FunctionCall kompleks: model secara mandiri memutuskan apakah perlu memanggil pencarian web untuk menjawab kueri secara real-time
Kontrol suara end-to-end: mengikuti instruksi seperti manusia dan bebas mengontrol volume, kecepatan, serta emosi ucapan
Voice Clone: pengguna dapat mengunggah suara untuk menyesuaikan suara AI assistant; semuanya tersedia melalui Realtime API
Gaya percakapan dan identitas model dapat diubah dengan memodifikasi system prompt

Mengusulkan teknologi ARIA (Adaptive Rate Interleave Alignment) untuk mengatasi masalah kehilangan, salah baca, dan pelafalan yang tidak jelas akibat perbedaan efisiensi encoding antara token teks dan suara dalam interaksi suara streaming
Menyelaraskan unit teks dan suara secara dinamis (interleave) untuk sangat meningkatkan kealamian dan stabilitas sintesis suara sambil mempertahankan performa real-time
Menggantikan pendekatan rasio tokenizer teks-suara tetap 1:1 pada Qwen3-Omni generasi sebelumnya

Pengenalan suara (ASR)
- Sebelumnya: 11 bahasa multibahasa + 8 dialek bahasa Tionghoa
- Sekarang: 74 bahasa multibahasa + 39 dialek bahasa Tionghoa
Sintesis suara (TTS)
- Sebelumnya: 29 bahasa multibahasa + 7 dialek bahasa Tionghoa
- Sekarang: pembuatan suara dalam 36 bahasa multibahasa (daftar sintesis dialek tidak disebutkan terpisah dalam sumber asli)

Audio-visual (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- DailyOmni: 84.6 vs 82.7
- AVUT: 85.0 vs 85.6
- VideoMME (with audio): 83.7 vs 89.0
- OmniGAIA: 57.2 vs 68.9
Audio (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- MMAU: 82.2 vs 81.1
- VoiceBench: 93.1 vs 88.9
- Fleurs S2TT (xx↔en top59): 35.4 vs 34.6
Stabilitas sintesis suara WER↓ (Custom Voice, Seed-hard)
- Qwen3.5-Omni-Plus: 6.24
- ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19

Offline API: mendukung analisis video dan audio, serta pencarian web (parameter enable_search); dipanggil dengan SDK Python yang kompatibel dengan OpenAI
Realtime API: percakapan real-time berbasis WebSocket; menggunakan dashscope SDK dan mendukung streaming input/output suara
Model ID yang tersedia: qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
Mendukung endpoint terpisah untuk Tiongkok daratan (Beijing) dan internasional (Singapura)

Voice kustom bahasa Tionghoa dan Inggris: Tina, Cindy, Liora Mira, Sunnybobi, Raymond, total 5 jenis
Voice skenario seperti emosi dan role-play: Ethan, Harvey, Maia, dan lainnya, total 19 jenis (bahasa Tionghoa dan Inggris)
Voice dialek bahasa Tionghoa: dialek Sichuan, dialek Beijing, dialek Tianjin, Kanton, dan lainnya, total 8 jenis
Voice multibahasa: bahasa Korea (Sohee), bahasa Jerman (Lenn), bahasa Jepang (Ono Anna), bahasa Spanyol, bahasa Prancis, bahasa Rusia, dan lainnya; total 23 jenis untuk 23 bahasa