Keluarga Qwen3-TTS dirilis sebagai open source: menyediakan desain suara, cloning, dan generasi

(qwen.ai)

31 poin oleh GN⁺ 2026-01-23 | 3 komentar | Bagikan ke WhatsApp

Qwen3-TTS adalah seri model generasi suara multibahasa yang mendukung cloning suara, desain suara, pembuatan suara humanoid berkualitas sangat tinggi, dan kontrol berbasis bahasa alami
Mendukung 10 bahasa utama dan berbagai dialek termasuk Tionghoa, Inggris, Jepang, Korea, dan lainnya, serta tersedia dalam dua ukuran model, 1.7B dan 0.6B
Melalui encoder Qwen3-TTS-Tokenizer-12Hz buatan sendiri, sinyal suara dikompresi secara efisien sambil mempertahankan sepenuhnya informasi nonverbal dan lingkungan akustik
Dengan arsitektur streaming Dual-Track, paket audio pertama dapat langsung keluar setelah 1 karakter dimasukkan, mencapai performa sintesis real-time dengan latensi 97 ms
Dengan dirilis sebagai open source, developer dan perusahaan dapat langsung memanfaatkan teknologi generasi suara berkualitas tinggi

Gambaran umum Qwen3-TTS

Qwen3-TTS adalah seri model generasi suara berperforma tinggi yang dikembangkan oleh Qwen, mengintegrasikan fungsi desain, cloning, generasi, dan kontrol suara
- Warna suara, emosi, intonasi, dan lainnya dapat dikendalikan dengan perintah bahasa alami
- Dapat diakses melalui Qwen API dan GitHub
Berbasis encoder multi-codebook Qwen3-TTS-Tokenizer-12Hz, menghadirkan rekonstruksi suara berkecepatan tinggi, fidelitas tinggi, dan kompresi yang efisien
Mendukung keluaran suara real-time per karakter melalui streaming dua arah Dual-Track

Komposisi model

Seluruh model tersedia dalam dua ukuran: 1.7B dan 0.6B
- 1.7B: memberikan performa terbaik dan kemampuan kontrol presisi
- 0.6B: seimbang antara performa dan efisiensi
Kedua model mendukung Tionghoa, Inggris, Jepang, Korea, Jerman, Prancis, Rusia, Portugis, Spanyol, dan Italia
Cloning suara cepat dengan input suara 3 detik dimungkinkan, dan juga dapat dimanfaatkan untuk fine-tuning (FT)

Fitur teknis utama

Daya ekspresi suara berperforma tinggi
- Qwen3-TTS-Tokenizer-12Hz melakukan pemodelan dan kompresi makna berdimensi tinggi dari sinyal akustik
- Mempertahankan informasi nonverbal dan suara lingkungan, serta mendukung rekonstruksi cepat dengan arsitektur non-DiT yang ringan
Arsitektur multi-codebook end-to-end
- Menghilangkan bottleneck informasi dan akumulasi kesalahan pada pendekatan LM+DiT konvensional
- Meningkatkan generalitas model, efisiensi generasi, dan batas performa
Sintesis streaming ultra-latency rendah
- Arsitektur hybrid Dual-Track mendukung mode streaming dan non-streaming secara bersamaan
- Audio pertama keluar setelah 1 karakter dimasukkan, dengan latensi 97 ms
Pemahaman teks cerdas dan kontrol suara
- Mengendalikan atribut multidimensi seperti warna suara, emosi, dan prosodi berdasarkan perintah bahasa alami
- Menyesuaikan nada dan ritme secara otomatis sesuai makna teks

Evaluasi performa model

Desain suara: pada benchmark InstructTTS-Eval, mencapai kepatuhan instruksi dan daya ekspresi yang lebih tinggi daripada MiniMax-Voice-Design
Kontrol suara: pada generalisasi multibahasa single-speaker, mencatat WER 2.34% dan skor kontrol gaya 75.4%
- Bahkan pada sintesis kontinu selama 10 menit, mempertahankan WER Tionghoa 2.36% dan Inggris 2.81%
Cloning suara: pada Seed-tts-eval, lebih stabil daripada MiniMax dan SeedTTS
- Rata-rata WER 1.835% dan speaker similarity 0.789 di 10 bahasa, melampaui performa CosyVoice3

Performa Tokenizer

Mencapai SOTA berdasarkan set LibriSpeech test-clean
- PESQ: wideband 3.21, narrowband 3.68
- STOI: 0.96, UTMOS: 4.16
- Speaker similarity 0.95, dengan pelestarian informasi pembicara pada tingkat yang nyaris lossless

Desain suara dan sampel

Dapat membuat warna suara kustom berdasarkan deskripsi bahasa alami
- Kontrol detail atas atribut seperti gender, usia, emosi, dan intonasi
- Contoh: suara pria bernada komando, suara wanita emosional, warna suara berdasarkan kelompok usia, dan lain-lain
Dengan fitur Timbre Reuse, warna suara yang dihasilkan dapat disimpan dan digunakan kembali
- Dapat dimanfaatkan untuk dialog multi-speaker atau narasi panjang

CustomVoice dan kontrol timbre

Bahkan setelah fine-tuning per speaker, tetap dimungkinkan mempertahankan timbre target dan melakukan ujaran multibahasa
Mendukung kontrol atribut tunggal maupun multi-atribut
- Contoh: pengaturan emosi yang detail seperti sedih, marah, berbisik, atau gaya bicara lambat
Menyediakan 9 set timbre publik
- Termasuk Tionghoa, Inggris, Jepang, Korea, dan dialek
- Contoh: Serena, Uncle Fu, Vivian, Ryan, Sohee, dan lainnya

Voice Clone dan cloning multibahasa

Melakukan cloning suara cepat dengan input suara 3 detik
- Selain cloning Tionghoa dan Inggris, juga mendukung cloning lintas bahasa
- Contoh: dapat menghasilkan ujaran multibahasa seperti Jepang dan Korea
Memiliki ketahanan terhadap noise pada teks
- Kalimat yang mengandung simbol kompleks, pinyin, dan karakter khusus pun dapat dilafalkan dengan akurat

Rekonstruksi audio berbasis Tokenizer

Dapat merekonstruksi berbagai elemen akustik seperti dialek, nyanyian, suara nonverbal, dan suara latar
Membuktikan kualitas rekonstruksi berfidelitas tinggi dibandingkan sumber asli

3 komentar

sudosudo 2026-01-24

Wah, bahkan bisa jalan di laptop lama juga.

xguru 2026-01-23

Saya sendiri belakangan ini memang sangat sering memakai model berbasis Qwen secara lokal.
Awalnya saya kira ya karena ini model Alibaba, tetapi cara mereka terus memperbaiki dan memperluasnya benar-benar mengagumkan.

GN⁺ 2026-01-23

Komentar Hacker News

Saya mencoba menjalankannya di macOS menggunakan mlx-audio. Ini dimungkinkan berkat tweet dari Prince Canuma
Skrip yang saya pakai ada di sini
Jika dijalankan dengan uv, model 4.5GB akan diunduh pada awalnya. Contoh perintahnya seperti berikut
uv run https://tools.simonwillison.net/python/q3_tts.py 'I am a pirate, give me your gold!' -i 'gruff voice' -o pirate.wav
- Benar-benar keren. Kemenangan lain untuk uv
Jika ingin mencoba voice cloning sendiri, bisa dilakukan di demo Hugging Face
Buka tab "Voice Clone", tempel teks contoh, rekam suara Anda sendiri dengan mikrofon, lalu masukkan teks lain untuk membuat versi yang dibacakan dengan suara Anda
Sampel audio yang saya buat saya bagikan di sini
- Sejujurnya ini terasa agak menyeramkan. Jika digabung dengan z-image-turbo, sekarang kita harus berasumsi bahwa semua yang ada di layar bisa jadi palsu. Kita sudah masuk ke era di mana tanpa verifikasi kriptografis, tidak ada yang bisa dipercaya
- Demo HF memang kelebihan beban, tetapi di lokal berjalan baik. Model 1.7B menangkap tone pembicara dengan baik, tetapi kurang pada variasi intonasi sehingga terdengar monoton. Mungkin karena demo tidak mengekspos fitur kontrol ekspresivitas. Meski begitu, penanganan noise-nya jauh lebih baik daripada 0.6B. Tanpa FlashAttention, di GPU 5090 kecepatannya lambat, sekitar 0.3x realtime, tetapi kualitasnya mengesankan
- Teknologi yang menakjubkan. Suara hasil kloningan saya benar-benar terdengar seperti saya. Sepertinya akan ada banyak kegunaan baik maupun buruk — misalnya dari nenek yang sudah meninggal membacakan buku cerita untuk cucunya, sampai penipuan atau pembuatan podcast otomatis
- Sulit menilai kinerja kloning hanya dari rekaman yang diposting. Harus ada sampel suara asli juga
- Saya sempat bersenang-senang mencobanya. Kalau saya merekam beberapa menit suara saya, mungkin suatu hari saya bisa membuat audiobook saya yang membacakan buku untuk diri saya sendiri
Model yang menarik. Saya menjalankan model 0.6B di GPU 1080, dan untuk potongan 200 karakter bisa menghasilkan tanpa OOM. Saya mencoba membuat audiobook Tao Te Ching, tetapi hasilnya selalu berbeda, seperti rolet ajaib. Ada bagian yang jelas, lalu ada bagian yang tertawa atau mengerang, jadi emosinya naik turun tidak konsisten. Suara Ryan paling stabil, sedangkan Eric terdengar seperti aksen Tionghoa yang terlalu dibesar-besarkan. Kalau emosinya konsisten, ini akan jadi TTS terbaik yang pernah saya pakai sejauh ini
- Sudah coba menentukan emosi secara manual? Kalau dikosongkan, mungkin akan diatur ke emosi acak (rng)
- Saya penasaran dengan RTF (real-time factor) di 1080. Saya sedang mengecek apakah model 0.6B bisa melakukan inferensi realtime di edge device
Saya ingin meminta tim Qwen — tolong rilis model yang melampaui kemampuan coding Opus 4.5. Saya suka modelnya, tetapi tidak suka kepemimpinan tertutup perusahaan itu dan sifatnya yang memecah belah secara politik
- Mungkin itu komentar yang mereka tunggu-tunggu
- Saya juga punya masalah yang sama (saya orang Denmark). Saya menguji dengan Open Code dan Minimax m2.1 ($10 per bulan), dan hasilnya cukup baik. GLM 4.7 juga luar biasa. Perbandingan lengkapnya ada di artikel ini. Tidak perlu mengirim uang ke perusahaan yang Anda benci
- Saya penasaran apa yang dimaksud dengan “memecah belah secara politik”
- Saya mendapatkan hasil bagus dengan GLM 4.7. Saya menjalankan dua akun max 24/7, dan sebagian code review saya tangani dengan Claude. Jika biaya adalah masalahnya, GLM 4.7 adalah pilihan yang bagus
- Saya ingin bertanya apakah Anda sudah mencoba GLM 4.7 yang baru dirilis
Sudah lama sejak terakhir kali teknologi seperti ini berkembang sampai sedemikian menggetarkan. Saya sudah memakai AI TTS sejak 2018, tetapi model ini adalah yang pertama kali membuat saya merasa restorasi drama radio lama benar-benar memungkinkan. Misalnya, bagian dialog yang hilang karena kerusakan pita mungkin bisa dipulihkan dari konteks. Mungkin puluhan jam audio aktor seperti Bob Bailey bisa dihidupkan kembali
- Sampel yang saya dengar terdengar seperti dubbing anime bergaya Miyazaki. Saya jadi penasaran apakah model ini dilatih dengan data seperti itu
- Saya juga sedang merencanakan proyek untuk merestorasi episode radio “Have Gun - Will Travel”. Jika bagian yang sulit dipahami karena kerusakan pita atau gangguan efek suara bisa dipulihkan, itu akan benar-benar luar biasa. Tentu saja potensi penyalahgunaannya juga besar
Saya penasaran apakah ada yang sudah mencobanya di Mac. Panduan instalasinya mengasumsikan NVIDIA GPU (CUDA, FlashAttention), jadi saya tidak tahu apakah ini akan berjalan di backend PyTorch Metal/MPS
- Bisa dijalankan tanpa FlashAttention dengan opsi --no-flash-attn. Saya juga melakukannya seperti itu di Windows
- Saya sarankan menyewa lingkungan Metal dengan modal
- Karena ada dependensi FlashAttention, untuk saat ini tidak bisa. Semoga ada yang membuat port untuk Metal
Contoh Age Control yang terakhir disetel ke “aksen Amerika”, tetapi di telinga saya terdengar seperti orang Australia yang sedang meniru aksen Amerika
Sepertinya ini sangat cocok untuk pembuatan audiobook. AI TTS sebelumnya masih kurang natural
Industri pengisi suara sekarang sedang pelan-pelan dimasak matang. Beberapa demo memperdengarkan suara yang jauh lebih matang daripada pengisi suara indie
Saya khawatir suatu hari nanti nenek saya akan tertipu oleh ini
- Sampai sekarang, itu justru terlihat seperti kasus penggunaan utamanya
- Tapi nenek-nenek zaman sekarang adalah generasi QVC dan peramal via telepon, jadi mungkin sekarang mereka tidak akan mudah tertipu oleh hal seperti itu