- Qwen3-TTS adalah seri model generasi suara multibahasa yang mendukung cloning suara, desain suara, pembuatan suara humanoid berkualitas sangat tinggi, dan kontrol berbasis bahasa alami
- Mendukung 10 bahasa utama dan berbagai dialek termasuk Tionghoa, Inggris, Jepang, Korea, dan lainnya, serta tersedia dalam dua ukuran model, 1.7B dan 0.6B
- Melalui encoder Qwen3-TTS-Tokenizer-12Hz buatan sendiri, sinyal suara dikompresi secara efisien sambil mempertahankan sepenuhnya informasi nonverbal dan lingkungan akustik
- Dengan arsitektur streaming Dual-Track, paket audio pertama dapat langsung keluar setelah 1 karakter dimasukkan, mencapai performa sintesis real-time dengan latensi 97 ms
- Dengan dirilis sebagai open source, developer dan perusahaan dapat langsung memanfaatkan teknologi generasi suara berkualitas tinggi
Gambaran umum Qwen3-TTS
- Qwen3-TTS adalah seri model generasi suara berperforma tinggi yang dikembangkan oleh Qwen, mengintegrasikan fungsi desain, cloning, generasi, dan kontrol suara
- Warna suara, emosi, intonasi, dan lainnya dapat dikendalikan dengan perintah bahasa alami
- Dapat diakses melalui Qwen API dan GitHub
- Berbasis encoder multi-codebook Qwen3-TTS-Tokenizer-12Hz, menghadirkan rekonstruksi suara berkecepatan tinggi, fidelitas tinggi, dan kompresi yang efisien
- Mendukung keluaran suara real-time per karakter melalui streaming dua arah Dual-Track
Komposisi model
- Seluruh model tersedia dalam dua ukuran: 1.7B dan 0.6B
- 1.7B: memberikan performa terbaik dan kemampuan kontrol presisi
- 0.6B: seimbang antara performa dan efisiensi
- Kedua model mendukung Tionghoa, Inggris, Jepang, Korea, Jerman, Prancis, Rusia, Portugis, Spanyol, dan Italia
- Cloning suara cepat dengan input suara 3 detik dimungkinkan, dan juga dapat dimanfaatkan untuk fine-tuning (FT)
Fitur teknis utama
- Daya ekspresi suara berperforma tinggi
- Qwen3-TTS-Tokenizer-12Hz melakukan pemodelan dan kompresi makna berdimensi tinggi dari sinyal akustik
- Mempertahankan informasi nonverbal dan suara lingkungan, serta mendukung rekonstruksi cepat dengan arsitektur non-DiT yang ringan
- Arsitektur multi-codebook end-to-end
- Menghilangkan bottleneck informasi dan akumulasi kesalahan pada pendekatan LM+DiT konvensional
- Meningkatkan generalitas model, efisiensi generasi, dan batas performa
- Sintesis streaming ultra-latency rendah
- Arsitektur hybrid Dual-Track mendukung mode streaming dan non-streaming secara bersamaan
- Audio pertama keluar setelah 1 karakter dimasukkan, dengan latensi 97 ms
- Pemahaman teks cerdas dan kontrol suara
- Mengendalikan atribut multidimensi seperti warna suara, emosi, dan prosodi berdasarkan perintah bahasa alami
- Menyesuaikan nada dan ritme secara otomatis sesuai makna teks
Evaluasi performa model
- Desain suara: pada benchmark InstructTTS-Eval, mencapai kepatuhan instruksi dan daya ekspresi yang lebih tinggi daripada MiniMax-Voice-Design
- Kontrol suara: pada generalisasi multibahasa single-speaker, mencatat WER 2.34% dan skor kontrol gaya 75.4%
- Bahkan pada sintesis kontinu selama 10 menit, mempertahankan WER Tionghoa 2.36% dan Inggris 2.81%
- Cloning suara: pada Seed-tts-eval, lebih stabil daripada MiniMax dan SeedTTS
- Rata-rata WER 1.835% dan speaker similarity 0.789 di 10 bahasa, melampaui performa CosyVoice3
Performa Tokenizer
- Mencapai SOTA berdasarkan set LibriSpeech test-clean
- PESQ: wideband 3.21, narrowband 3.68
- STOI: 0.96, UTMOS: 4.16
- Speaker similarity 0.95, dengan pelestarian informasi pembicara pada tingkat yang nyaris lossless
Desain suara dan sampel
- Dapat membuat warna suara kustom berdasarkan deskripsi bahasa alami
- Kontrol detail atas atribut seperti gender, usia, emosi, dan intonasi
- Contoh: suara pria bernada komando, suara wanita emosional, warna suara berdasarkan kelompok usia, dan lain-lain
- Dengan fitur Timbre Reuse, warna suara yang dihasilkan dapat disimpan dan digunakan kembali
- Dapat dimanfaatkan untuk dialog multi-speaker atau narasi panjang
CustomVoice dan kontrol timbre
- Bahkan setelah fine-tuning per speaker, tetap dimungkinkan mempertahankan timbre target dan melakukan ujaran multibahasa
- Mendukung kontrol atribut tunggal maupun multi-atribut
- Contoh: pengaturan emosi yang detail seperti sedih, marah, berbisik, atau gaya bicara lambat
- Menyediakan 9 set timbre publik
- Termasuk Tionghoa, Inggris, Jepang, Korea, dan dialek
- Contoh: Serena, Uncle Fu, Vivian, Ryan, Sohee, dan lainnya
Voice Clone dan cloning multibahasa
- Melakukan cloning suara cepat dengan input suara 3 detik
- Selain cloning Tionghoa dan Inggris, juga mendukung cloning lintas bahasa
- Contoh: dapat menghasilkan ujaran multibahasa seperti Jepang dan Korea
- Memiliki ketahanan terhadap noise pada teks
- Kalimat yang mengandung simbol kompleks, pinyin, dan karakter khusus pun dapat dilafalkan dengan akurat
Rekonstruksi audio berbasis Tokenizer
- Dapat merekonstruksi berbagai elemen akustik seperti dialek, nyanyian, suara nonverbal, dan suara latar
- Membuktikan kualitas rekonstruksi berfidelitas tinggi dibandingkan sumber asli
3 komentar
Wah, bahkan bisa jalan di laptop lama juga.
Saya sendiri belakangan ini memang sangat sering memakai model berbasis Qwen secara lokal.
Awalnya saya kira ya karena ini model Alibaba, tetapi cara mereka terus memperbaiki dan memperluasnya benar-benar mengagumkan.
Komentar Hacker News
Saya mencoba menjalankannya di macOS menggunakan mlx-audio. Ini dimungkinkan berkat tweet dari Prince Canuma
Skrip yang saya pakai ada di sini
Jika dijalankan dengan
uv, model 4.5GB akan diunduh pada awalnya. Contoh perintahnya seperti berikutuv run https://tools.simonwillison.net/python/q3_tts.py 'I am a pirate, give me your gold!' -i 'gruff voice' -o pirate.wavJika ingin mencoba voice cloning sendiri, bisa dilakukan di demo Hugging Face
Buka tab "Voice Clone", tempel teks contoh, rekam suara Anda sendiri dengan mikrofon, lalu masukkan teks lain untuk membuat versi yang dibacakan dengan suara Anda
Sampel audio yang saya buat saya bagikan di sini
Model yang menarik. Saya menjalankan model 0.6B di GPU 1080, dan untuk potongan 200 karakter bisa menghasilkan tanpa OOM. Saya mencoba membuat audiobook Tao Te Ching, tetapi hasilnya selalu berbeda, seperti rolet ajaib. Ada bagian yang jelas, lalu ada bagian yang tertawa atau mengerang, jadi emosinya naik turun tidak konsisten. Suara Ryan paling stabil, sedangkan Eric terdengar seperti aksen Tionghoa yang terlalu dibesar-besarkan. Kalau emosinya konsisten, ini akan jadi TTS terbaik yang pernah saya pakai sejauh ini
Saya ingin meminta tim Qwen — tolong rilis model yang melampaui kemampuan coding Opus 4.5. Saya suka modelnya, tetapi tidak suka kepemimpinan tertutup perusahaan itu dan sifatnya yang memecah belah secara politik
Sudah lama sejak terakhir kali teknologi seperti ini berkembang sampai sedemikian menggetarkan. Saya sudah memakai AI TTS sejak 2018, tetapi model ini adalah yang pertama kali membuat saya merasa restorasi drama radio lama benar-benar memungkinkan. Misalnya, bagian dialog yang hilang karena kerusakan pita mungkin bisa dipulihkan dari konteks. Mungkin puluhan jam audio aktor seperti Bob Bailey bisa dihidupkan kembali
Saya penasaran apakah ada yang sudah mencobanya di Mac. Panduan instalasinya mengasumsikan NVIDIA GPU (CUDA, FlashAttention), jadi saya tidak tahu apakah ini akan berjalan di backend PyTorch Metal/MPS
--no-flash-attn. Saya juga melakukannya seperti itu di WindowsContoh Age Control yang terakhir disetel ke “aksen Amerika”, tetapi di telinga saya terdengar seperti orang Australia yang sedang meniru aksen Amerika
Sepertinya ini sangat cocok untuk pembuatan audiobook. AI TTS sebelumnya masih kurang natural
Industri pengisi suara sekarang sedang pelan-pelan dimasak matang. Beberapa demo memperdengarkan suara yang jauh lebih matang daripada pengisi suara indie
Saya khawatir suatu hari nanti nenek saya akan tertipu oleh ini