StyleTTS2 – Teknologi text-to-speech open source dengan kualitas setara ElevenLabs
(github.com/yl4579)Model text-to-speech tingkat manusia, StyleTTS 2
- StyleTTS 2 mencapai sintesis text-to-speech (TTS) tingkat manusia melalui pembelajaran adversarial yang menggunakan difusi gaya dan model bahasa ucapan berskala besar.
- Model ini mencapai difusi laten yang efisien dengan memodelkan gaya sebagai variabel acak laten melalui model difusi untuk menghasilkan gaya yang paling sesuai dengan teks tanpa suara referensi.
- Dengan menggunakan model bahasa ucapan besar yang telah dipra-latih sebagai diskriminator, serta pemodelan durasi baru yang dapat didiferensiasikan untuk pelatihan end-to-end, model ini meningkatkan kealamian suara.
Persiapan
- Diperlukan Python versi 3.7 atau lebih tinggi.
- Clone repositori StyleTTS 2 dan instal dependensi Python yang diperlukan.
- Unduh dataset LJSpeech, lakukan upsampling ke 24 kHz, lalu ekstrak ke folder data.
- Jika menggunakan dataset LibriTTS, gabungkan train-clean-360 dan train-clean-100 lalu ubah nama folder menjadi train-clean-460.
Pelatihan
- Pelatihan tahap pertama dan tahap kedua dapat dijalankan secara berurutan, dan model disimpan dalam format tertentu.
- Format daftar data harus berupa
filename.wav|transcription|speaker, dan untuk model multi-speaker diperlukan sampling audio referensi untuk pelatihan model difusi gaya.
Konfigurasi penting
- File
config.ymlberisi pengaturan penting seperti path teks OOD (out-of-distribution) untuk pelatihan adversarial SLM, panjang minimum dan maksimum untuk pelatihan, apakah melatih model multi-speaker, serta persentase batch untuk mencegah masalah OOM (out-of-memory).
Modul pra-latih
- Folder ASR berisi aligner teks yang telah dipra-latih, folder JDC berisi ekstraktor pitch yang telah dipra-latih, dan folder PLBERT berisi model PL-BERT yang telah dipra-latih.
Masalah umum
- Untuk mengatasi masalah loss menjadi NaN dan kekurangan memori, disarankan menyesuaikan ukuran batch atau menurunkan nilai
max_len.
Fine-tuning
- Dengan memodifikasi skrip
train_second.py, tersedia skrip fine-tuning yang menggunakan DP, sedangkan DDP saat ini belum berfungsi.
Inferensi
- Lihat file notebook untuk inferensi pada dataset LJSpeech dan LibriTTS; untuk LibriTTS diperlukan file audio referensi.
- Model StyleTTS 2 yang telah dipra-latih dapat diunduh, dan sebelum digunakan, pendengar harus diberi tahu bahwa sampel suara sintetis dihasilkan oleh model StyleTTS 2, atau gunakan suara yang izinnya telah diperoleh.
Opini GN⁺
Hal terpenting dalam tulisan ini adalah bahwa StyleTTS 2 telah mencapai sintesis TTS tingkat manusia, yang menunjukkan potensi difusi gaya dan pembelajaran adversarial berbasis model bahasa ucapan berskala besar. Teknologi ini dapat secara signifikan meningkatkan kealamian sintesis suara dan, dengan kemampuannya menghasilkan beragam gaya tanpa suara referensi, berpotensi memberi dampak besar pada perkembangan antarmuka berbasis suara dan asisten digital.
1 komentar
Opini Hacker News
Pengalaman mengembangkan chatbot suara 100% lokal menggunakan StyleTTS2
Pendapat pribadi tentang kualitas suara StyleTTS2
Berbagi pengalaman instalasi dan penggunaan StyleTTS2
Pengalaman terkait instalasi dan pengoperasian StyleTTS2
Perbandingan contoh suara StyleTTS2 dengan suara asli
Penilaian terhadap kualitas suara StyleTTS2
Pendapat tentang judul dan isi StyleTTS2
Pertanyaan tentang waktu inferensi StyleTTS2
Pertanyaan tentang lisensi StyleTTS2
Prospek marketplace untuk model text-to-speech