3 poin oleh GN⁺ 2023-11-20 | 1 komentar | Bagikan ke WhatsApp

Model text-to-speech tingkat manusia, StyleTTS 2

  • StyleTTS 2 mencapai sintesis text-to-speech (TTS) tingkat manusia melalui pembelajaran adversarial yang menggunakan difusi gaya dan model bahasa ucapan berskala besar.
  • Model ini mencapai difusi laten yang efisien dengan memodelkan gaya sebagai variabel acak laten melalui model difusi untuk menghasilkan gaya yang paling sesuai dengan teks tanpa suara referensi.
  • Dengan menggunakan model bahasa ucapan besar yang telah dipra-latih sebagai diskriminator, serta pemodelan durasi baru yang dapat didiferensiasikan untuk pelatihan end-to-end, model ini meningkatkan kealamian suara.

Persiapan

  • Diperlukan Python versi 3.7 atau lebih tinggi.
  • Clone repositori StyleTTS 2 dan instal dependensi Python yang diperlukan.
  • Unduh dataset LJSpeech, lakukan upsampling ke 24 kHz, lalu ekstrak ke folder data.
  • Jika menggunakan dataset LibriTTS, gabungkan train-clean-360 dan train-clean-100 lalu ubah nama folder menjadi train-clean-460.

Pelatihan

  • Pelatihan tahap pertama dan tahap kedua dapat dijalankan secara berurutan, dan model disimpan dalam format tertentu.
  • Format daftar data harus berupa filename.wav|transcription|speaker, dan untuk model multi-speaker diperlukan sampling audio referensi untuk pelatihan model difusi gaya.

Konfigurasi penting

  • File config.yml berisi pengaturan penting seperti path teks OOD (out-of-distribution) untuk pelatihan adversarial SLM, panjang minimum dan maksimum untuk pelatihan, apakah melatih model multi-speaker, serta persentase batch untuk mencegah masalah OOM (out-of-memory).

Modul pra-latih

  • Folder ASR berisi aligner teks yang telah dipra-latih, folder JDC berisi ekstraktor pitch yang telah dipra-latih, dan folder PLBERT berisi model PL-BERT yang telah dipra-latih.

Masalah umum

  • Untuk mengatasi masalah loss menjadi NaN dan kekurangan memori, disarankan menyesuaikan ukuran batch atau menurunkan nilai max_len.

Fine-tuning

  • Dengan memodifikasi skrip train_second.py, tersedia skrip fine-tuning yang menggunakan DP, sedangkan DDP saat ini belum berfungsi.

Inferensi

  • Lihat file notebook untuk inferensi pada dataset LJSpeech dan LibriTTS; untuk LibriTTS diperlukan file audio referensi.
  • Model StyleTTS 2 yang telah dipra-latih dapat diunduh, dan sebelum digunakan, pendengar harus diberi tahu bahwa sampel suara sintetis dihasilkan oleh model StyleTTS 2, atau gunakan suara yang izinnya telah diperoleh.

Opini GN⁺

Hal terpenting dalam tulisan ini adalah bahwa StyleTTS 2 telah mencapai sintesis TTS tingkat manusia, yang menunjukkan potensi difusi gaya dan pembelajaran adversarial berbasis model bahasa ucapan berskala besar. Teknologi ini dapat secara signifikan meningkatkan kealamian sintesis suara dan, dengan kemampuannya menghasilkan beragam gaya tanpa suara referensi, berpotensi memberi dampak besar pada perkembangan antarmuka berbasis suara dan asisten digital.

1 komentar

 
GN⁺ 2023-11-20
Opini Hacker News
  • Pengalaman mengembangkan chatbot suara 100% lokal menggunakan StyleTTS2

    • Chatbot yang dibuat dengan memanfaatkan open source seperti StyleTTS2, Whisper, dan OpenHermes2-Mistral-7B menawarkan kecepatan respons yang jauh lebih cepat daripada ChatGPT.
    • Berbeda dari asisten suara yang sudah ada, chatbot ini memungkinkan percakapan yang alami, dan khususnya dapat diinstal serta langsung digunakan untuk bercakap hanya dengan satu klik di PC gaming Windows yang dilengkapi GPU Nvidia 12GB.
    • Demonya agak tidak stabil (perlu headphone, dijalankan sebagai aplikasi konsol, dan sebagainya), tetapi kombinasi open source ini memberi gambaran tentang potensi masa depan yang bisa dijalankan di PC gaming.
  • Pendapat pribadi tentang kualitas suara StyleTTS2

    • Suaranya sangat bagus, tetapi sebelum dipakai saya ingin bisa membuat kloning dengan suara yang nyaman dan sesuai preferensi saya.
  • Berbagi pengalaman instalasi dan penggunaan StyleTTS2

    • Berbagi pengalaman saat menguji StyleTTS2 serta catatan langkah demi langkah yang mungkin berguna untuk penyesuaian lokal.
    • Dalam perbandingan kecepatan/kualitas dengan model LJSpeech, StyleTTS2 sangat cepat dan kualitasnya juga bagus.
  • Pengalaman terkait instalasi dan pengoperasian StyleTTS2

    • Dokumentasinya agak kurang lengkap sehingga instalasinya sedikit merepotkan, tetapi setelah sekitar 20 menit, sistem ini berjalan dengan baik di WSL Ubuntu 22.04.
    • Kualitas suaranya sangat baik, dan sangat cepat terutama saat menggunakan GPU 4090.
    • Meski belum mencapai kualitas Eleven Labs, kekuatan Eleven ada pada pustaka suara berkualitas tinggi yang beragam serta fitur kloning suara instan yang bekerja sangat baik hanya dengan sampel berdurasi 5 menit.
    • Ada harapan agar fitur-fitur seperti ini nantinya bisa digunakan sepenuhnya dalam proyek open source.
  • Perbandingan contoh suara StyleTTS2 dengan suara asli

    • Contoh suara TTS2 terdengar lebih alami daripada suara aslinya.
    • Saya antusias menggunakan teknologi ini untuk file ePub yang tidak memiliki audiobook, terutama light novel Jepang dan sejenisnya.
  • Penilaian terhadap kualitas suara StyleTTS2

    • Kualitas suaranya sangat luar biasa, pada level yang tidak terbayangkan pada awal 2000-an.
    • Ada prospek menarik untuk game di mana LLM memerankan karakter dan TTS memberi suara pada NPC.
  • Pendapat tentang judul dan isi StyleTTS2

    • Judul di Hacker News saat ini adalah "StyleTTS2 – text-to-speech open source dengan kualitas Eleven Labs", tetapi baik judul aslinya maupun makalah arXiv tidak menyebut Eleven Labs.
    • Ini menimbulkan kekhawatiran terhadap ungkapan editorial semacam itu.
  • Pertanyaan tentang waktu inferensi StyleTTS2

    • Menanyakan perkiraan kasar waktu inferensi pada CPU modern.
  • Pertanyaan tentang lisensi StyleTTS2

    • Menanyakan apakah model ini tidak bisa digunakan untuk tujuan komersial karena lisensinya bukan MIT.
  • Prospek marketplace untuk model text-to-speech

    • Penasaran apakah marketplace LoRA bergaya Civitai juga akan muncul untuk model text-to-speech.