12 poin oleh xguru 2024-02-10 | Belum ada komentar. | Bagikan ke WhatsApp
  • Model TTS (text-to-speech) dengan 1,2 miliar parameter yang dilatih menggunakan 100 ribu jam suara
  • Ritme dan intonasi bicara yang emosional (bahasa Inggris)
  • Mendukung voice cloning melalui fine-tuning (untuk penutur India, berhasil hanya dengan sekitar 1 menit data suara)
  • Untuk suara AS/Inggris, zero-shot cloning dimungkinkan hanya dengan 30 detik audio referensi
  • Mendukung sintesis suara panjang
  • Dapat digunakan tanpa batasan di bawah lisensi Apache 2.0

Belum ada komentar.

Belum ada komentar.