VALL-E - Model bahasa untuk sintesis suara buatan Microsoft

xguru · 2023-01-10T10:24:40+09:00

Model Text-to-Speech berbasis Transformer Dapat mensintesis dengan suara apa pun hanya dengan 3 detik sampel suara tersebut Jauh lebih alami dan mirip dengan pembicara dibandingkan TTS zero-shot terbaru, serta mempertahankan emosi pembicara dan lingkungan akustiknya Pipeline sebelumnya adalah phoneme (fonem) → mel-spectrogram → waveform, sedangkan VALL-E adalah phoneme → discrete code → waveform Dapat digabungkan dengan berbagai aplikasi sintesis suara dan model AI seperti GPT-3

Model Text-to-Speech berbasis Transformer
Dapat mensintesis dengan suara apa pun hanya dengan 3 detik sampel suara tersebut
Jauh lebih alami dan mirip dengan pembicara dibandingkan TTS zero-shot terbaru, serta mempertahankan emosi pembicara dan lingkungan akustiknya
Pipeline sebelumnya adalah phoneme (fonem) → mel-spectrogram → waveform, sedangkan
VALL-E adalah phoneme → discrete code → waveform
Dapat digabungkan dengan berbagai aplikasi sintesis suara dan model AI seperti GPT-3

3 komentar

openmind 2023-01-10

Sepertinya dengan kemajuan machine learning, hambatan untuk masuk ke teknologi TTS juga jadi lebih rendah. Kalau mencari-cari di repositori open source, ternyata kita juga bisa merekam suara sendiri lalu membuat TTS rakitan untuk suara kita sendiri.

jjpark78 2023-01-10

Sekarang bentuk gelombang suara sepertinya tidak lagi bisa digunakan untuk mengidentifikasi seseorang layaknya sidik jari. -_-;

Entah kenapa saya juga merasa pernah dengar bahwa saat melakukan penyadapan, server skala besar memanfaatkan pola suara orang tertentu agar bereaksi terhadap kata kunci tertentu dari pola suara itu...

Kalau bisa disintesis sampai sejauh ini, sistem semacam itu sekarang tampaknya sudah tidak berlaku lagi...

VALL-E - Model bahasa untuk sintesis suara buatan Microsoft

Bacaan terkait

3 komentar