10 poin oleh GN⁺ 2024-01-19 | 1 komentar | Bagikan ke WhatsApp

Gambaran umum WhisperSpeech

  • WhisperSpeech adalah sistem text-to-speech open source yang dibuat dengan membangun Whisper secara terbalik.
  • Model ini dirancang agar kuat sekaligus mudah dikustomisasi, dan aman digunakan untuk keperluan komersial.
  • Saat ini model dilatih berdasarkan dataset LibreLight berbahasa Inggris, dan pada rilis berikutnya direncanakan mendukung berbagai bahasa.

Pembaruan progres [2024-01-18]

  • Selama seminggu terakhir, fokus diberikan pada optimalisasi performa inferensi.
  • Melalui integrasi torch.compile, penambahan kv-caching, dan penyesuaian beberapa layer, sistem kini berjalan 12 kali lebih cepat daripada real-time pada 4090 kelas konsumen.
  • Ditambahkan kemampuan untuk mencampur beberapa bahasa dalam satu kalimat.
  • Juga ditambahkan cara untuk menguji kloning suara dengan mudah.

Pembaruan progres [2024-01-10]

  • Merilis model SD S2A baru yang lebih cepat sekaligus menghasilkan suara berkualitas tinggi.
  • Juga ditambahkan contoh kloning suara berdasarkan file audio referensi.

Pembaruan progres [2023-12-10]

  • Menambahkan 3 model baru yang mendukung bahasa Inggris dan Polandia.
  • Menyediakan sampel suara baru, dan dapat langsung dicoba di Colab.

Unduhan

  • Disarankan menggunakan tautan Google Colab sebagai titik awal, atau menjalankan notebook yang disediakan secara lokal.
  • Jika ingin mengunduh secara manual atau melatih model dari nol, model pra-latih WhisperSpeech dan dataset yang telah dikonversi tersedia di HuggingFace.

Peta jalan

  • Mengumpulkan dataset suara emosional yang lebih besar
  • Mencari cara mengendalikan generasi berdasarkan emosi dan intonasi
  • Mendorong upaya komunitas untuk mengumpulkan suara yang bebas digunakan dalam berbagai bahasa
  • Melatih model multibahasa final

Arsitektur

  • Memiliki arsitektur umum yang mirip dengan AudioLM, SPEAR TTS, dan MusicGen.
  • Dibangun di atas model open source yang kuat: Whisper dari OpenAI untuk pembuatan token semantik dan transkripsi, EnCodec dari Meta untuk pemodelan akustik, serta Vocos dari Charactr Inc sebagai vocoder berkualitas tinggi.

Ucapan terima kasih

  • Pekerjaan ini dimungkinkan berkat dukungan dari Collabora, LAION, Jülich Supercomputing Centre, serta bantuan para kontributor individu.

Konsultasi

  • Dapat memberikan bantuan untuk proyek AI open source maupun proprietari.

Kutipan

  • Bergantung pada berbagai proyek open source dan makalah penelitian yang luar biasa.

Opini GN⁺

  • WhisperSpeech adalah proyek open source yang inovatif di bidang sintesis suara, menawarkan model text-to-speech yang kuat, mendukung berbagai bahasa, dan aman digunakan untuk keperluan komersial.
  • Dengan memanfaatkan teknologi terbaru, proyek ini mencapai performa yang jauh lebih cepat daripada real-time, serta memiliki aksesibilitas untuk menguji fitur-fitur lanjutan seperti kloning suara dengan mudah.
  • Proyek ini berkembang berbasis komunitas dan bertujuan memperluas dukungan ke berbagai bahasa serta menghasilkan suara dengan unsur emosional, sehingga diharapkan memainkan peran penting dalam masa depan teknologi suara.

1 komentar

 
GN⁺ 2024-01-19
Komentar Hacker News
  • Proyek model ASR multibahasa Whisper

    • Model ASR multibahasa Whisper dilatih dengan data dalam jumlah sangat besar sehingga memiliki keluaran encoder yang merepresentasikan konten semantik ucapan dengan baik.
    • Encoder ini dapat digunakan sebagai pengganti open source untuk encoder semantik dalam arsitektur model seperti SPEAR-TTS/VALL-E.
    • Token akustik yang diprediksi kemudian di-upsample/dihilangkan noise-nya/ditingkatkan kualitasnya dengan vocoder Vocos.
    • Saat ini hambatan utamanya adalah kekurangan tenaga untuk memperoleh dan membersihkan dataset yang sesuai.
  • Pendapat pengembang WhisperSpeech

    • Mereka telah bekerja keras selama beberapa bulan untuk meningkatkan model, tetapi masih banyak ruang untuk perbaikan.
    • Berkat dukungan Collabora, ini adalah proyek open source yang sesungguhnya, dan mereka ingin membantu siapa pun yang ingin melakukan peningkatan atau integrasi.
    • Jika ingin menggunakannya untuk keperluan bisnis, dukungan engineering dapat dibeli.
  • Ketertarikan pada sintesis suara bahasa Mandarin

    • Ada ketertarikan pada performa sintesis suara bahasa Mandarin, khususnya untuk intonasi dan ekspresi emosi.
    • EmotiVoice adalah model open source dengan kualitas terbaik yang pernah mereka lihat sejauh ini, dan mereka membuat wrapper CLI untuk menggunakannya dalam pembuatan audio kartu flash.
    • Dengan EmotiVoice, suara sendiri dapat dikloning menggunakan GPU, tetapi mereka belum mengujinya.
  • Penyebutan Mimic 3 dari Mycroft

    • Mimic 3 dari Mycroft tidak menggunakan teknologi terbaru, tetapi tetap mengesankan dan cukup kecil untuk menghasilkan suara secara real-time di Raspberry Pi.
    • Sebagian suaranya lebih baik daripada yang lain, dan setara dengan contoh WhisperSpeech.
  • Pertanyaan tentang model berbasis IPA (International Phonetic Alphabet)

    • Ada pertanyaan mengenai pengembangan/kemajuan model berbasis IPA.
    • Pendekatan ini bisa berguna untuk mengubah suara ke aksen lain atau mendukung banyak bahasa.
    • Untuk model seperti suara MBROLA, hal ini dapat dilakukan secara terbatas dengan memetakan fonem dari satu bahasa ke fonem bahasa lain.
    • Pendekatan IPA mungkin memungkinkan pembelajaran yang lebih baik terhadap perubahan kualitas suara dan timbre.
  • Pengamatan tentang pelatihan suara kustom dengan Piper

    • Setelah menonton video pelatihan suara kustom menggunakan Piper, diketahui bahwa metadata yang dibutuhkan dataset adalah teks untuk file audio sumber.
    • Metode pelatihan dari Collabora mengotomatiskan proses ini dan hanya memerlukan file audio untuk pelatihan.
  • Penilaian terhadap sampel bahasa Polandia

    • Sampel bahasa Polandia sangat bagus dan terdengar seperti rekaman audiobook.
  • Pertanyaan tentang kemungkinan pengendalian suara

    • Ada ketertarikan pada seberapa dapat dikendalikan suaranya saat menerapkan TTS ke sistem chat.
    • Dibutuhkan sebanyak mungkin suara yang berbeda agar setiap pengguna dapat memiliki suara yang unik.
  • Keraguan terhadap demo yang dilatih dengan klip berkualitas rendah dari Winston Churchill

    • Muncul keraguan terhadap demo yang dilatih dengan klip audio berkualitas rendah dengan anggapan "garbage in, garbage out".
  • Penilaian positif terhadap TTS

    • Ini adalah TTS terbaik yang pernah mereka dengar sejauh ini, dengan modulasi suara yang terdengar seperti manusia.