WhisperSpeech – Sistem sintesis suara open source yang membangun Whisper secara terbalik

(github.com/collabora)

10 poin oleh GN⁺ 2024-01-19 | 1 komentar | Bagikan ke WhatsApp

Gambaran umum WhisperSpeech

WhisperSpeech adalah sistem text-to-speech open source yang dibuat dengan membangun Whisper secara terbalik.
Model ini dirancang agar kuat sekaligus mudah dikustomisasi, dan aman digunakan untuk keperluan komersial.
Saat ini model dilatih berdasarkan dataset LibreLight berbahasa Inggris, dan pada rilis berikutnya direncanakan mendukung berbagai bahasa.

Pembaruan progres [2024-01-18]

Selama seminggu terakhir, fokus diberikan pada optimalisasi performa inferensi.
Melalui integrasi torch.compile, penambahan kv-caching, dan penyesuaian beberapa layer, sistem kini berjalan 12 kali lebih cepat daripada real-time pada 4090 kelas konsumen.
Ditambahkan kemampuan untuk mencampur beberapa bahasa dalam satu kalimat.
Juga ditambahkan cara untuk menguji kloning suara dengan mudah.

Pembaruan progres [2024-01-10]

Merilis model SD S2A baru yang lebih cepat sekaligus menghasilkan suara berkualitas tinggi.
Juga ditambahkan contoh kloning suara berdasarkan file audio referensi.

Pembaruan progres [2023-12-10]

Menambahkan 3 model baru yang mendukung bahasa Inggris dan Polandia.
Menyediakan sampel suara baru, dan dapat langsung dicoba di Colab.

Unduhan

Disarankan menggunakan tautan Google Colab sebagai titik awal, atau menjalankan notebook yang disediakan secara lokal.
Jika ingin mengunduh secara manual atau melatih model dari nol, model pra-latih WhisperSpeech dan dataset yang telah dikonversi tersedia di HuggingFace.

Peta jalan

Mengumpulkan dataset suara emosional yang lebih besar
Mencari cara mengendalikan generasi berdasarkan emosi dan intonasi
Mendorong upaya komunitas untuk mengumpulkan suara yang bebas digunakan dalam berbagai bahasa
Melatih model multibahasa final

Arsitektur

Memiliki arsitektur umum yang mirip dengan AudioLM, SPEAR TTS, dan MusicGen.
Dibangun di atas model open source yang kuat: Whisper dari OpenAI untuk pembuatan token semantik dan transkripsi, EnCodec dari Meta untuk pemodelan akustik, serta Vocos dari Charactr Inc sebagai vocoder berkualitas tinggi.

Ucapan terima kasih

Pekerjaan ini dimungkinkan berkat dukungan dari Collabora, LAION, Jülich Supercomputing Centre, serta bantuan para kontributor individu.

Konsultasi

Dapat memberikan bantuan untuk proyek AI open source maupun proprietari.

Kutipan

Bergantung pada berbagai proyek open source dan makalah penelitian yang luar biasa.

Opini GN⁺

WhisperSpeech adalah proyek open source yang inovatif di bidang sintesis suara, menawarkan model text-to-speech yang kuat, mendukung berbagai bahasa, dan aman digunakan untuk keperluan komersial.
Dengan memanfaatkan teknologi terbaru, proyek ini mencapai performa yang jauh lebih cepat daripada real-time, serta memiliki aksesibilitas untuk menguji fitur-fitur lanjutan seperti kloning suara dengan mudah.
Proyek ini berkembang berbasis komunitas dan bertujuan memperluas dukungan ke berbagai bahasa serta menghasilkan suara dengan unsur emosional, sehingga diharapkan memainkan peran penting dalam masa depan teknologi suara.

1 komentar

GN⁺ 2024-01-19

Komentar Hacker News

Proyek model ASR multibahasa Whisper
- Model ASR multibahasa Whisper dilatih dengan data dalam jumlah sangat besar sehingga memiliki keluaran encoder yang merepresentasikan konten semantik ucapan dengan baik.
- Encoder ini dapat digunakan sebagai pengganti open source untuk encoder semantik dalam arsitektur model seperti SPEAR-TTS/VALL-E.
- Token akustik yang diprediksi kemudian di-upsample/dihilangkan noise-nya/ditingkatkan kualitasnya dengan vocoder Vocos.
- Saat ini hambatan utamanya adalah kekurangan tenaga untuk memperoleh dan membersihkan dataset yang sesuai.
Pendapat pengembang WhisperSpeech
- Mereka telah bekerja keras selama beberapa bulan untuk meningkatkan model, tetapi masih banyak ruang untuk perbaikan.
- Berkat dukungan Collabora, ini adalah proyek open source yang sesungguhnya, dan mereka ingin membantu siapa pun yang ingin melakukan peningkatan atau integrasi.
- Jika ingin menggunakannya untuk keperluan bisnis, dukungan engineering dapat dibeli.
Ketertarikan pada sintesis suara bahasa Mandarin
- Ada ketertarikan pada performa sintesis suara bahasa Mandarin, khususnya untuk intonasi dan ekspresi emosi.
- EmotiVoice adalah model open source dengan kualitas terbaik yang pernah mereka lihat sejauh ini, dan mereka membuat wrapper CLI untuk menggunakannya dalam pembuatan audio kartu flash.
- Dengan EmotiVoice, suara sendiri dapat dikloning menggunakan GPU, tetapi mereka belum mengujinya.
Penyebutan Mimic 3 dari Mycroft
- Mimic 3 dari Mycroft tidak menggunakan teknologi terbaru, tetapi tetap mengesankan dan cukup kecil untuk menghasilkan suara secara real-time di Raspberry Pi.
- Sebagian suaranya lebih baik daripada yang lain, dan setara dengan contoh WhisperSpeech.
Pertanyaan tentang model berbasis IPA (International Phonetic Alphabet)
- Ada pertanyaan mengenai pengembangan/kemajuan model berbasis IPA.
- Pendekatan ini bisa berguna untuk mengubah suara ke aksen lain atau mendukung banyak bahasa.
- Untuk model seperti suara MBROLA, hal ini dapat dilakukan secara terbatas dengan memetakan fonem dari satu bahasa ke fonem bahasa lain.
- Pendekatan IPA mungkin memungkinkan pembelajaran yang lebih baik terhadap perubahan kualitas suara dan timbre.
Pengamatan tentang pelatihan suara kustom dengan Piper
- Setelah menonton video pelatihan suara kustom menggunakan Piper, diketahui bahwa metadata yang dibutuhkan dataset adalah teks untuk file audio sumber.
- Metode pelatihan dari Collabora mengotomatiskan proses ini dan hanya memerlukan file audio untuk pelatihan.
Penilaian terhadap sampel bahasa Polandia
- Sampel bahasa Polandia sangat bagus dan terdengar seperti rekaman audiobook.
Pertanyaan tentang kemungkinan pengendalian suara
- Ada ketertarikan pada seberapa dapat dikendalikan suaranya saat menerapkan TTS ke sistem chat.
- Dibutuhkan sebanyak mungkin suara yang berbeda agar setiap pengguna dapat memiliki suara yang unik.
Keraguan terhadap demo yang dilatih dengan klip berkualitas rendah dari Winston Churchill
- Muncul keraguan terhadap demo yang dilatih dengan klip audio berkualitas rendah dengan anggapan "garbage in, garbage out".
Penilaian positif terhadap TTS
- Ini adalah TTS terbaik yang pernah mereka dengar sejauh ini, dengan modulasi suara yang terdengar seperti manusia.

WhisperSpeech – Sistem sintesis suara open source yang membangun Whisper secara terbalik

Gambaran umum WhisperSpeech

Pembaruan progres [2024-01-18]

Pembaruan progres [2024-01-10]

Pembaruan progres [2023-12-10]

Unduhan

Peta jalan

Arsitektur

Ucapan terima kasih

Konsultasi

Kutipan

Opini GN⁺

Bacaan terkait

1 komentar

Komentar Hacker News