24 poin oleh xguru 2025-02-14 | 2 komentar | Bagikan ke WhatsApp
  • Model Open Weight Text-To-Speech yang dilatih dengan lebih dari 200.000 jam data suara multibahasa
  • Menawarkan "kualitas suara setara atau lebih baik" dibanding layanan TTS komersial serta "ekspresivitas yang natural"
  • Menghasilkan suara berkualitas tinggi dengan sampling rate 44kHz
  • Mendukung voice cloning: mampu mereplikasi gaya penutur tertentu secara presisi hanya dengan beberapa detik suara referensi
  • Beragam fitur kontrol: dapat mengatur kecepatan bicara, tinggi nada, kualitas suara, dan emosi (kegembiraan, ketakutan, kesedihan, kemarahan, dll.)

Fitur utama

  • Zero-shot TTS dan voice cloning
    • Cukup masukkan teks dan sampel penutur berdurasi 10~30 detik untuk langsung menghasilkan sintesis suara berkualitas tinggi
  • Dukungan input audio prefix
    • Dengan menambahkan audio prefix bersama teks, pencocokan penutur dapat dilakukan dengan lebih presisi
    • Efektif untuk mewujudkan gaya suara tertentu seperti suara berbisik
  • Dukungan multibahasa
    • Mendukung bahasa Inggris, Jepang, Mandarin, Prancis, dan Jerman
  • Kontrol emosi dan kualitas suara
    • Pengaturan emosi: dapat mengekspresikan kegembiraan, kemarahan, kesedihan, ketakutan, dan lainnya
    • Penyesuaian suara rinci: dapat mengatur kecepatan, tinggi nada, frekuensi maksimum, dan kualitas audio
  • Performa tinggi
    • Dapat berjalan sekitar 2x lebih cepat dari real-time pada RTX 4090
  • Dukungan Gradio WebUI
    • Menyediakan antarmuka web yang praktis sehingga siapa pun dapat dengan mudah membuat suara
  • Instalasi dan deployment sederhana
    • Dapat diinstal dan di-deploy dengan mudah menggunakan Docker

2 komentar

 
mindok 2025-02-14

Sayang sekali tidak ada bahasa Korea,,,

 
marantz 2025-02-19

Bahasa Korea juga berfungsi dengan baik. Hanya saja, terasa agak canggung.