Zonos - Model sintesis suara open weight berkualitas tinggi

xguru · 2025-02-14T10:23:01+09:00

Model Open Weight Text-To-Speech yang dilatih dengan lebih dari 200.000 jam data suara multibahasa Menawarkan "kualitas suara setara atau lebih baik" dibanding layanan TTS komersial serta "ekspresivitas yang natural" Menghasilkan suara berkualitas tinggi dengan sampling rate 44kHz Mendukung voice cloning: mampu mereplikasi gaya penutur tertentu secara presisi hanya dengan beberapa detik suara referensi Beragam fitur kontrol: dapat mengatur kecepatan bicara, tinggi nada, kualitas suara, dan emosi (kegembiraan, ketakutan, kesedihan, kemarahan, dll.) Fitur utama Zero-shot TTS dan voice cloning Cukup masukkan teks dan sampel penutur berdurasi 10~30 detik untuk langsung menghasilkan sintesis suara berkualitas tinggi Dukungan input audio prefix Dengan menambahkan audio prefix bersama teks, pencocokan penutur dapat dilakukan dengan lebih presisi Efektif untuk mewujudkan gaya suara tertentu seperti suara berbisik Dukungan multibahasa Mendukung bahasa Inggris, Jepang, Mandarin, Prancis, dan Jerman Kontrol emosi dan kualitas suara Pengaturan emosi: dapat mengekspresikan kegembiraan, kemarahan, kesedihan, ketakutan, dan lainnya Penyesuaian suara rinci: dapat mengatur kecepatan, tinggi nada, frekuensi maksimum, dan kualitas audio Performa tinggi Dapat berjalan sekitar 2x lebih cepat dari real-time pada RTX 4090 Dukungan Gradio WebUI Menyediakan antarmuka web yang praktis sehingga siapa pun dapat dengan mudah membuat suara Instalasi dan deployment sederhana Dapat diinstal dan di-deploy dengan mudah menggunakan Docker

(github.com/Zyphra)

24 poin oleh xguru 2025-02-14 | 2 komentar | Bagikan ke WhatsApp

Model Open Weight Text-To-Speech yang dilatih dengan lebih dari 200.000 jam data suara multibahasa
Menawarkan "kualitas suara setara atau lebih baik" dibanding layanan TTS komersial serta "ekspresivitas yang natural"
Menghasilkan suara berkualitas tinggi dengan sampling rate 44kHz
Mendukung voice cloning: mampu mereplikasi gaya penutur tertentu secara presisi hanya dengan beberapa detik suara referensi
Beragam fitur kontrol: dapat mengatur kecepatan bicara, tinggi nada, kualitas suara, dan emosi (kegembiraan, ketakutan, kesedihan, kemarahan, dll.)

Fitur utama

Zero-shot TTS dan voice cloning
- Cukup masukkan teks dan sampel penutur berdurasi 10~30 detik untuk langsung menghasilkan sintesis suara berkualitas tinggi
Dukungan input audio prefix
- Dengan menambahkan audio prefix bersama teks, pencocokan penutur dapat dilakukan dengan lebih presisi
- Efektif untuk mewujudkan gaya suara tertentu seperti suara berbisik
Dukungan multibahasa
- Mendukung bahasa Inggris, Jepang, Mandarin, Prancis, dan Jerman
Kontrol emosi dan kualitas suara
- Pengaturan emosi: dapat mengekspresikan kegembiraan, kemarahan, kesedihan, ketakutan, dan lainnya
- Penyesuaian suara rinci: dapat mengatur kecepatan, tinggi nada, frekuensi maksimum, dan kualitas audio
Performa tinggi
- Dapat berjalan sekitar 2x lebih cepat dari real-time pada RTX 4090
Dukungan Gradio WebUI
- Menyediakan antarmuka web yang praktis sehingga siapa pun dapat dengan mudah membuat suara
Instalasi dan deployment sederhana
- Dapat diinstal dan di-deploy dengan mudah menggunakan Docker

2 komentar

mindok 2025-02-14

Sayang sekali tidak ada bahasa Korea,,,

marantz 2025-02-19

Bahasa Korea juga berfungsi dengan baik. Hanya saja, terasa agak canggung.

Zonos - Model sintesis suara open weight berkualitas tinggi

Fitur utama

Bacaan terkait

2 komentar