- Model Open Weight Text-To-Speech yang dilatih dengan lebih dari 200.000 jam data suara multibahasa
- Menawarkan "kualitas suara setara atau lebih baik" dibanding layanan TTS komersial serta "ekspresivitas yang natural"
- Menghasilkan suara berkualitas tinggi dengan sampling rate 44kHz
- Mendukung voice cloning: mampu mereplikasi gaya penutur tertentu secara presisi hanya dengan beberapa detik suara referensi
- Beragam fitur kontrol: dapat mengatur kecepatan bicara, tinggi nada, kualitas suara, dan emosi (kegembiraan, ketakutan, kesedihan, kemarahan, dll.)
Fitur utama
- Zero-shot TTS dan voice cloning
- Cukup masukkan teks dan sampel penutur berdurasi 10~30 detik untuk langsung menghasilkan sintesis suara berkualitas tinggi
- Dukungan input audio prefix
- Dengan menambahkan audio prefix bersama teks, pencocokan penutur dapat dilakukan dengan lebih presisi
- Efektif untuk mewujudkan gaya suara tertentu seperti suara berbisik
- Dukungan multibahasa
- Mendukung bahasa Inggris, Jepang, Mandarin, Prancis, dan Jerman
- Kontrol emosi dan kualitas suara
- Pengaturan emosi: dapat mengekspresikan kegembiraan, kemarahan, kesedihan, ketakutan, dan lainnya
- Penyesuaian suara rinci: dapat mengatur kecepatan, tinggi nada, frekuensi maksimum, dan kualitas audio
- Performa tinggi
- Dapat berjalan sekitar 2x lebih cepat dari real-time pada RTX 4090
- Dukungan Gradio WebUI
- Menyediakan antarmuka web yang praktis sehingga siapa pun dapat dengan mudah membuat suara
- Instalasi dan deployment sederhana
- Dapat diinstal dan di-deploy dengan mudah menggunakan Docker
2 komentar
Sayang sekali tidak ada bahasa Korea,,,
Bahasa Korea juga berfungsi dengan baik. Hanya saja, terasa agak canggung.