- Model sintesis suara TTS baru yang dirancang untuk menghasilkan suara percakapan multi-pembicara yang alami dalam durasi panjang dari teks
- Dirancang untuk mengatasi masalah skalabilitas, konsistensi pembicara, dan pergantian giliran yang alami yang menjadi keterbatasan sistem sebelumnya
- Dapat mensintesis audio hingga 90 menit dan hingga 4 pembicara secara bersamaan, melampaui model sebelumnya yang terbatas pada 1–2 pembicara
- Intinya adalah penggunaan tokenizer suara kontinu dengan frame rate ultra-rendah 7.5Hz (Acoustic/Semantic) untuk memproses sekuens audio panjang secara efisien sambil mempertahankan kualitas suara
- Menggunakan pendekatan Next-Token Diffusion untuk memodelkan data kontinu secara efisien, dan untuk itu memperkenalkan tokenizer suara kontinu baru yang menawarkan rasio kompresi 80 kali lebih tinggi dibanding Encodec
Pengenalan
- Teknologi TTS terbaru telah berhasil mensintesis ujaran pendek dari satu pembicara dengan kualitas tinggi, tetapi sintesis percakapan multi-pembicara berdurasi panjang masih menjadi tantangan
- Pendekatan sebelumnya hanya menyambungkan ujaran secara sederhana sehingga menghasilkan transisi yang tidak alami
- Sulit menghasilkan pergantian giliran yang alami dan generasi yang memahami konteks
- Tujuan: mendukung sintesis suara percakapan panjang dan multi-pembicara seperti podcast
- Untuk mengatasi hal ini, VibeVoice menggabungkan tokenizer suara dengan frame rate ultra-rendah (7.5Hz) dan arsitektur Diffusion berbasis LLM
- Hasilnya, audio multi-pembicara hingga 90 menit dapat disintesis secara stabil
Inovasi teknis
- Tokenizer suara kontinu (7.5Hz):
- Menggunakan tokenizer Acoustic + Semantic secara paralel
- Menjamin efisiensi pemrosesan sekuens panjang sekaligus menjaga fidelitas audio
- Framework next-token diffusion:
- LLM memahami konteks teks dan alur percakapan
- Diffusion head menghasilkan detail akustik beresolusi tinggi
- Hasil: sintesis suara yang jauh lebih alami dan terdengar seperti manusia dibanding sebelumnya
Performa
- Mendukung sintesis suara hingga 90 menit
- Mendukung hingga 4 pembicara (melampaui batas 1–2 pembicara pada model sebelumnya)
- Memberikan suara yang ekspresif dan konsisten dalam berbagai situasi percakapan
Hasil eksperimen
Sintesis percakapan berdurasi panjang (Podcast)
- Dievaluasi menggunakan dataset percakapan berdurasi 1 jam
- Mengukur WER (word error rate), SIM (speaker similarity), dan evaluasi subjektif (MOS)
- VIBEVOICE-7B mencatat performa terbaik dengan Realism 3.71, Richness 3.81, Preference 3.75
- Lebih unggul daripada model terbaru seperti Gemini 2.5 Pro dan ElevenLabs v3
Kesimpulan dan keterbatasan
- VibeVoice adalah framework TTS generasi berikutnya yang mendukung sintesis percakapan alami hingga 90 menit dan 4 pembicara
- Dibanding model open-source dan komersial yang ada, kualitasnya unggul baik secara subjektif maupun objektif
- Keterbatasan:
- Bahasa selain Inggris dan Mandarin dapat menghasilkan hasil yang tidak terduga
- Audio non-suara (suara latar, musik) tidak didukung
- Ucapan simultan (Overlapping Speech) tidak didukung
- Ada risiko penyalahgunaan untuk deepfake dan disinformasi
- Karena itu, saat ini disediakan sebagai open-source khusus untuk tujuan riset dan pengembangan, dan tidak direkomendasikan untuk penggunaan komersial
Belum ada komentar.