Gambaran umum WhisperSpeech
- WhisperSpeech adalah sistem text-to-speech open source yang dibuat dengan membangun Whisper secara terbalik.
- Model ini dirancang agar kuat sekaligus mudah dikustomisasi, dan aman digunakan untuk keperluan komersial.
- Saat ini model dilatih berdasarkan dataset LibreLight berbahasa Inggris, dan pada rilis berikutnya direncanakan mendukung berbagai bahasa.
Pembaruan progres [2024-01-18]
- Selama seminggu terakhir, fokus diberikan pada optimalisasi performa inferensi.
- Melalui integrasi
torch.compile, penambahan kv-caching, dan penyesuaian beberapa layer, sistem kini berjalan 12 kali lebih cepat daripada real-time pada 4090 kelas konsumen.
- Ditambahkan kemampuan untuk mencampur beberapa bahasa dalam satu kalimat.
- Juga ditambahkan cara untuk menguji kloning suara dengan mudah.
Pembaruan progres [2024-01-10]
- Merilis model SD S2A baru yang lebih cepat sekaligus menghasilkan suara berkualitas tinggi.
- Juga ditambahkan contoh kloning suara berdasarkan file audio referensi.
Pembaruan progres [2023-12-10]
- Menambahkan 3 model baru yang mendukung bahasa Inggris dan Polandia.
- Menyediakan sampel suara baru, dan dapat langsung dicoba di Colab.
Unduhan
- Disarankan menggunakan tautan Google Colab sebagai titik awal, atau menjalankan notebook yang disediakan secara lokal.
- Jika ingin mengunduh secara manual atau melatih model dari nol, model pra-latih WhisperSpeech dan dataset yang telah dikonversi tersedia di HuggingFace.
Peta jalan
- Mengumpulkan dataset suara emosional yang lebih besar
- Mencari cara mengendalikan generasi berdasarkan emosi dan intonasi
- Mendorong upaya komunitas untuk mengumpulkan suara yang bebas digunakan dalam berbagai bahasa
- Melatih model multibahasa final
Arsitektur
- Memiliki arsitektur umum yang mirip dengan AudioLM, SPEAR TTS, dan MusicGen.
- Dibangun di atas model open source yang kuat: Whisper dari OpenAI untuk pembuatan token semantik dan transkripsi, EnCodec dari Meta untuk pemodelan akustik, serta Vocos dari Charactr Inc sebagai vocoder berkualitas tinggi.
Ucapan terima kasih
- Pekerjaan ini dimungkinkan berkat dukungan dari Collabora, LAION, Jülich Supercomputing Centre, serta bantuan para kontributor individu.
Konsultasi
- Dapat memberikan bantuan untuk proyek AI open source maupun proprietari.
Kutipan
- Bergantung pada berbagai proyek open source dan makalah penelitian yang luar biasa.
Opini GN⁺
- WhisperSpeech adalah proyek open source yang inovatif di bidang sintesis suara, menawarkan model text-to-speech yang kuat, mendukung berbagai bahasa, dan aman digunakan untuk keperluan komersial.
- Dengan memanfaatkan teknologi terbaru, proyek ini mencapai performa yang jauh lebih cepat daripada real-time, serta memiliki aksesibilitas untuk menguji fitur-fitur lanjutan seperti kloning suara dengan mudah.
- Proyek ini berkembang berbasis komunitas dan bertujuan memperluas dukungan ke berbagai bahasa serta menghasilkan suara dengan unsur emosional, sehingga diharapkan memainkan peran penting dalam masa depan teknologi suara.
1 komentar
Komentar Hacker News
Proyek model ASR multibahasa Whisper
Pendapat pengembang WhisperSpeech
Ketertarikan pada sintesis suara bahasa Mandarin
Penyebutan Mimic 3 dari Mycroft
Pertanyaan tentang model berbasis IPA (International Phonetic Alphabet)
Pengamatan tentang pelatihan suara kustom dengan Piper
Penilaian terhadap sampel bahasa Polandia
Pertanyaan tentang kemungkinan pengendalian suara
Keraguan terhadap demo yang dilatih dengan klip berkualitas rendah dari Winston Churchill
Penilaian positif terhadap TTS