31 poin oleh GN⁺ 2026-01-23 | 3 komentar | Bagikan ke WhatsApp
  • Qwen3-TTS adalah seri model generasi suara multibahasa yang mendukung cloning suara, desain suara, pembuatan suara humanoid berkualitas sangat tinggi, dan kontrol berbasis bahasa alami
  • Mendukung 10 bahasa utama dan berbagai dialek termasuk Tionghoa, Inggris, Jepang, Korea, dan lainnya, serta tersedia dalam dua ukuran model, 1.7B dan 0.6B
  • Melalui encoder Qwen3-TTS-Tokenizer-12Hz buatan sendiri, sinyal suara dikompresi secara efisien sambil mempertahankan sepenuhnya informasi nonverbal dan lingkungan akustik
  • Dengan arsitektur streaming Dual-Track, paket audio pertama dapat langsung keluar setelah 1 karakter dimasukkan, mencapai performa sintesis real-time dengan latensi 97 ms
  • Dengan dirilis sebagai open source, developer dan perusahaan dapat langsung memanfaatkan teknologi generasi suara berkualitas tinggi

Gambaran umum Qwen3-TTS

  • Qwen3-TTS adalah seri model generasi suara berperforma tinggi yang dikembangkan oleh Qwen, mengintegrasikan fungsi desain, cloning, generasi, dan kontrol suara
    • Warna suara, emosi, intonasi, dan lainnya dapat dikendalikan dengan perintah bahasa alami
    • Dapat diakses melalui Qwen API dan GitHub
  • Berbasis encoder multi-codebook Qwen3-TTS-Tokenizer-12Hz, menghadirkan rekonstruksi suara berkecepatan tinggi, fidelitas tinggi, dan kompresi yang efisien
  • Mendukung keluaran suara real-time per karakter melalui streaming dua arah Dual-Track

Komposisi model

  • Seluruh model tersedia dalam dua ukuran: 1.7B dan 0.6B
    • 1.7B: memberikan performa terbaik dan kemampuan kontrol presisi
    • 0.6B: seimbang antara performa dan efisiensi
  • Kedua model mendukung Tionghoa, Inggris, Jepang, Korea, Jerman, Prancis, Rusia, Portugis, Spanyol, dan Italia
  • Cloning suara cepat dengan input suara 3 detik dimungkinkan, dan juga dapat dimanfaatkan untuk fine-tuning (FT)

Fitur teknis utama

  • Daya ekspresi suara berperforma tinggi
    • Qwen3-TTS-Tokenizer-12Hz melakukan pemodelan dan kompresi makna berdimensi tinggi dari sinyal akustik
    • Mempertahankan informasi nonverbal dan suara lingkungan, serta mendukung rekonstruksi cepat dengan arsitektur non-DiT yang ringan
  • Arsitektur multi-codebook end-to-end
    • Menghilangkan bottleneck informasi dan akumulasi kesalahan pada pendekatan LM+DiT konvensional
    • Meningkatkan generalitas model, efisiensi generasi, dan batas performa
  • Sintesis streaming ultra-latency rendah
    • Arsitektur hybrid Dual-Track mendukung mode streaming dan non-streaming secara bersamaan
    • Audio pertama keluar setelah 1 karakter dimasukkan, dengan latensi 97 ms
  • Pemahaman teks cerdas dan kontrol suara
    • Mengendalikan atribut multidimensi seperti warna suara, emosi, dan prosodi berdasarkan perintah bahasa alami
    • Menyesuaikan nada dan ritme secara otomatis sesuai makna teks

Evaluasi performa model

  • Desain suara: pada benchmark InstructTTS-Eval, mencapai kepatuhan instruksi dan daya ekspresi yang lebih tinggi daripada MiniMax-Voice-Design
  • Kontrol suara: pada generalisasi multibahasa single-speaker, mencatat WER 2.34% dan skor kontrol gaya 75.4%
    • Bahkan pada sintesis kontinu selama 10 menit, mempertahankan WER Tionghoa 2.36% dan Inggris 2.81%
  • Cloning suara: pada Seed-tts-eval, lebih stabil daripada MiniMax dan SeedTTS
    • Rata-rata WER 1.835% dan speaker similarity 0.789 di 10 bahasa, melampaui performa CosyVoice3

Performa Tokenizer

  • Mencapai SOTA berdasarkan set LibriSpeech test-clean
    • PESQ: wideband 3.21, narrowband 3.68
    • STOI: 0.96, UTMOS: 4.16
    • Speaker similarity 0.95, dengan pelestarian informasi pembicara pada tingkat yang nyaris lossless

Desain suara dan sampel

  • Dapat membuat warna suara kustom berdasarkan deskripsi bahasa alami
    • Kontrol detail atas atribut seperti gender, usia, emosi, dan intonasi
    • Contoh: suara pria bernada komando, suara wanita emosional, warna suara berdasarkan kelompok usia, dan lain-lain
  • Dengan fitur Timbre Reuse, warna suara yang dihasilkan dapat disimpan dan digunakan kembali
    • Dapat dimanfaatkan untuk dialog multi-speaker atau narasi panjang

CustomVoice dan kontrol timbre

  • Bahkan setelah fine-tuning per speaker, tetap dimungkinkan mempertahankan timbre target dan melakukan ujaran multibahasa
  • Mendukung kontrol atribut tunggal maupun multi-atribut
    • Contoh: pengaturan emosi yang detail seperti sedih, marah, berbisik, atau gaya bicara lambat
  • Menyediakan 9 set timbre publik
    • Termasuk Tionghoa, Inggris, Jepang, Korea, dan dialek
    • Contoh: Serena, Uncle Fu, Vivian, Ryan, Sohee, dan lainnya

Voice Clone dan cloning multibahasa

  • Melakukan cloning suara cepat dengan input suara 3 detik
    • Selain cloning Tionghoa dan Inggris, juga mendukung cloning lintas bahasa
    • Contoh: dapat menghasilkan ujaran multibahasa seperti Jepang dan Korea
  • Memiliki ketahanan terhadap noise pada teks
    • Kalimat yang mengandung simbol kompleks, pinyin, dan karakter khusus pun dapat dilafalkan dengan akurat

Rekonstruksi audio berbasis Tokenizer

  • Dapat merekonstruksi berbagai elemen akustik seperti dialek, nyanyian, suara nonverbal, dan suara latar
  • Membuktikan kualitas rekonstruksi berfidelitas tinggi dibandingkan sumber asli

3 komentar

 
sudosudo 2026-01-24

Wah, bahkan bisa jalan di laptop lama juga.

 
xguru 2026-01-23

Saya sendiri belakangan ini memang sangat sering memakai model berbasis Qwen secara lokal.
Awalnya saya kira ya karena ini model Alibaba, tetapi cara mereka terus memperbaiki dan memperluasnya benar-benar mengagumkan.

 
GN⁺ 2026-01-23
Komentar Hacker News
  • Saya mencoba menjalankannya di macOS menggunakan mlx-audio. Ini dimungkinkan berkat tweet dari Prince Canuma
    Skrip yang saya pakai ada di sini
    Jika dijalankan dengan uv, model 4.5GB akan diunduh pada awalnya. Contoh perintahnya seperti berikut
    uv run https://tools.simonwillison.net/python/q3_tts.py 'I am a pirate, give me your gold!' -i 'gruff voice' -o pirate.wav

    • Benar-benar keren. Kemenangan lain untuk uv
  • Jika ingin mencoba voice cloning sendiri, bisa dilakukan di demo Hugging Face
    Buka tab "Voice Clone", tempel teks contoh, rekam suara Anda sendiri dengan mikrofon, lalu masukkan teks lain untuk membuat versi yang dibacakan dengan suara Anda
    Sampel audio yang saya buat saya bagikan di sini

    • Sejujurnya ini terasa agak menyeramkan. Jika digabung dengan z-image-turbo, sekarang kita harus berasumsi bahwa semua yang ada di layar bisa jadi palsu. Kita sudah masuk ke era di mana tanpa verifikasi kriptografis, tidak ada yang bisa dipercaya
    • Demo HF memang kelebihan beban, tetapi di lokal berjalan baik. Model 1.7B menangkap tone pembicara dengan baik, tetapi kurang pada variasi intonasi sehingga terdengar monoton. Mungkin karena demo tidak mengekspos fitur kontrol ekspresivitas. Meski begitu, penanganan noise-nya jauh lebih baik daripada 0.6B. Tanpa FlashAttention, di GPU 5090 kecepatannya lambat, sekitar 0.3x realtime, tetapi kualitasnya mengesankan
    • Teknologi yang menakjubkan. Suara hasil kloningan saya benar-benar terdengar seperti saya. Sepertinya akan ada banyak kegunaan baik maupun buruk — misalnya dari nenek yang sudah meninggal membacakan buku cerita untuk cucunya, sampai penipuan atau pembuatan podcast otomatis
    • Sulit menilai kinerja kloning hanya dari rekaman yang diposting. Harus ada sampel suara asli juga
    • Saya sempat bersenang-senang mencobanya. Kalau saya merekam beberapa menit suara saya, mungkin suatu hari saya bisa membuat audiobook saya yang membacakan buku untuk diri saya sendiri
  • Model yang menarik. Saya menjalankan model 0.6B di GPU 1080, dan untuk potongan 200 karakter bisa menghasilkan tanpa OOM. Saya mencoba membuat audiobook Tao Te Ching, tetapi hasilnya selalu berbeda, seperti rolet ajaib. Ada bagian yang jelas, lalu ada bagian yang tertawa atau mengerang, jadi emosinya naik turun tidak konsisten. Suara Ryan paling stabil, sedangkan Eric terdengar seperti aksen Tionghoa yang terlalu dibesar-besarkan. Kalau emosinya konsisten, ini akan jadi TTS terbaik yang pernah saya pakai sejauh ini

    • Sudah coba menentukan emosi secara manual? Kalau dikosongkan, mungkin akan diatur ke emosi acak (rng)
    • Saya penasaran dengan RTF (real-time factor) di 1080. Saya sedang mengecek apakah model 0.6B bisa melakukan inferensi realtime di edge device
  • Saya ingin meminta tim Qwen — tolong rilis model yang melampaui kemampuan coding Opus 4.5. Saya suka modelnya, tetapi tidak suka kepemimpinan tertutup perusahaan itu dan sifatnya yang memecah belah secara politik

    • Mungkin itu komentar yang mereka tunggu-tunggu
    • Saya juga punya masalah yang sama (saya orang Denmark). Saya menguji dengan Open Code dan Minimax m2.1 ($10 per bulan), dan hasilnya cukup baik. GLM 4.7 juga luar biasa. Perbandingan lengkapnya ada di artikel ini. Tidak perlu mengirim uang ke perusahaan yang Anda benci
    • Saya penasaran apa yang dimaksud dengan “memecah belah secara politik”
    • Saya mendapatkan hasil bagus dengan GLM 4.7. Saya menjalankan dua akun max 24/7, dan sebagian code review saya tangani dengan Claude. Jika biaya adalah masalahnya, GLM 4.7 adalah pilihan yang bagus
    • Saya ingin bertanya apakah Anda sudah mencoba GLM 4.7 yang baru dirilis
  • Sudah lama sejak terakhir kali teknologi seperti ini berkembang sampai sedemikian menggetarkan. Saya sudah memakai AI TTS sejak 2018, tetapi model ini adalah yang pertama kali membuat saya merasa restorasi drama radio lama benar-benar memungkinkan. Misalnya, bagian dialog yang hilang karena kerusakan pita mungkin bisa dipulihkan dari konteks. Mungkin puluhan jam audio aktor seperti Bob Bailey bisa dihidupkan kembali

    • Sampel yang saya dengar terdengar seperti dubbing anime bergaya Miyazaki. Saya jadi penasaran apakah model ini dilatih dengan data seperti itu
    • Saya juga sedang merencanakan proyek untuk merestorasi episode radio “Have Gun - Will Travel”. Jika bagian yang sulit dipahami karena kerusakan pita atau gangguan efek suara bisa dipulihkan, itu akan benar-benar luar biasa. Tentu saja potensi penyalahgunaannya juga besar
  • Saya penasaran apakah ada yang sudah mencobanya di Mac. Panduan instalasinya mengasumsikan NVIDIA GPU (CUDA, FlashAttention), jadi saya tidak tahu apakah ini akan berjalan di backend PyTorch Metal/MPS

    • Bisa dijalankan tanpa FlashAttention dengan opsi --no-flash-attn. Saya juga melakukannya seperti itu di Windows
    • Saya sarankan menyewa lingkungan Metal dengan modal
    • Karena ada dependensi FlashAttention, untuk saat ini tidak bisa. Semoga ada yang membuat port untuk Metal
  • Contoh Age Control yang terakhir disetel ke “aksen Amerika”, tetapi di telinga saya terdengar seperti orang Australia yang sedang meniru aksen Amerika

  • Sepertinya ini sangat cocok untuk pembuatan audiobook. AI TTS sebelumnya masih kurang natural

  • Industri pengisi suara sekarang sedang pelan-pelan dimasak matang. Beberapa demo memperdengarkan suara yang jauh lebih matang daripada pengisi suara indie

  • Saya khawatir suatu hari nanti nenek saya akan tertipu oleh ini

    • Sampai sekarang, itu justru terlihat seperti kasus penggunaan utamanya
    • Tapi nenek-nenek zaman sekarang adalah generasi QVC dan peramal via telepon, jadi mungkin sekarang mereka tidak akan mudah tertipu oleh hal seperti itu