17 poin oleh xguru 2023-01-10 | 3 komentar | Bagikan ke WhatsApp
  • Model Text-to-Speech berbasis Transformer
  • Dapat mensintesis dengan suara apa pun hanya dengan 3 detik sampel suara tersebut
  • Jauh lebih alami dan mirip dengan pembicara dibandingkan TTS zero-shot terbaru, serta mempertahankan emosi pembicara dan lingkungan akustiknya
  • Pipeline sebelumnya adalah phoneme (fonem) → mel-spectrogram → waveform, sedangkan
    VALL-E adalah phoneme → discrete code → waveform
  • Dapat digabungkan dengan berbagai aplikasi sintesis suara dan model AI seperti GPT-3

3 komentar

 
openmind 2023-01-10

Sepertinya dengan kemajuan machine learning, hambatan untuk masuk ke teknologi TTS juga jadi lebih rendah. Kalau mencari-cari di repositori open source, ternyata kita juga bisa merekam suara sendiri lalu membuat TTS rakitan untuk suara kita sendiri.

 
jjpark78 2023-01-10

Sekarang bentuk gelombang suara sepertinya tidak lagi bisa digunakan untuk mengidentifikasi seseorang layaknya sidik jari. -_-;

Entah kenapa saya juga merasa pernah dengar bahwa saat melakukan penyadapan, server skala besar memanfaatkan pola suara orang tertentu agar bereaksi terhadap kata kunci tertentu dari pola suara itu...

Kalau bisa disintesis sampai sejauh ini, sistem semacam itu sekarang tampaknya sudah tidak berlaku lagi...