- Keluarga model AI suara open-source yang dirilis Microsoft, mencakup TTS (teks→suara) dan ASR (suara→teks)
- ASR mirip dengan OpenAI Whisper, tetapi fungsi speaker diarization sudah tertanam langsung di dalam model
- Inovasi utamanya adalah tokenizer suara kontinu dengan frame rate ultra-rendah 7.5Hz, yang sangat meningkatkan efisiensi komputasi untuk sekuens panjang sambil tetap menjaga kualitas audio
- Mengadopsi framework next-token diffusion - LLM memahami konteks teks, dan diffusion head menghasilkan detail akustik berkualitas tinggi
- VibeVoice-ASR (7B): memproses hingga 60 menit audio dalam satu pass, dengan keluaran terstruktur untuk pembicara (Who), timestamp (When), dan isi (What)
- Fitur hotword kustom pengguna meningkatkan akurasi pengenalan untuk istilah spesifik domain
- Model multibahasa yang mendukung lebih dari 50 bahasa secara native
- Akan diintegrasikan ke Hugging Face Transformers mulai Maret 2026
- Mendukung inferensi vLLM untuk inferensi yang lebih cepat dan kode fine-tuning juga telah dirilis
- VibeVoice-TTS (1.5B): menghasilkan suara percakapan hingga 90 menit dalam satu pass, mendukung hingga 4 pembicara sekaligus
- Menghasilkan suara yang alami dan ekspresif dengan dukungan multibahasa, menangkap nuansa emosional dan dinamika percakapan
- Dirilis pada 25 Agustus 2025, tetapi kemudian ditemukan kasus penggunaan yang tidak sesuai dengan maksud awal, sehingga pada 5 September 2025 kode TTS dihapus dari repositori
- VibeVoice-Realtime (0.5B): TTS real-time hingga 10 menit, dengan output suara pertama dalam sekitar 300 milidetik
- Model text-to-speech real-time ringan dengan 0.5B parameter yang ramah untuk deployment
- Mendukung input teks streaming
- Dirilis pada 3 Desember 2025, lalu pada 16 Desember ditambahkan secara eksperimental suara multibahasa dalam 9 bahasa (DE, FR, IT, JP, KR, NL, PL, PT, ES) dan 11 suara bergaya bahasa Inggris
- Dukungan Apple Silicon (MPS) ditambahkan ke demo Gradio ASR, meningkatkan kegunaan di Mac
- Berbasis model dasar (Qwen2.5 1.5B), sehingga dapat mewarisi bias dan kesalahan, serta perlu kehati-hatian terhadap potensi penyalahgunaan untuk deepfake
- Lisensi MIT
1 komentar
VibeVoice - model sintesis suara open-source generasi berikutnya dari Microsoft
Di GeekNews sempat langsung dipublikasikan pada awalnya, tetapi karena ada isu, kode VibeVoice-TTS sepertinya dihapus.
Untuk TTS, saat ini tampaknya hanya VibeVoice-Realtime yang bisa digunakan.
Beberapa hari terakhir, VibeVoice tampaknya kembali populer karena VibeVoice-ASR, dan terlihat dibahas di berbagai tempat.
https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison menguji ASR, dan di Mac bisa dijalankan dengan perintah satu baris menggunakan
uvdan mlx-audio,serta memproses audio berdurasi 1 jam dalam sekitar 8 menit 45 detik di MacBook Pro M5 Max 128GB.
Bisa dianggap sebagai
Whisper yang pemisahan pembicaranya bagus