- Keluarga model AI suara open source yang dirilis Microsoft, mencakup TTS (teks→suara) dan ASR (suara→teks)
- ASR mirip dengan Open AI Whisper, tetapi fitur speaker diarization tertanam langsung di dalam model
- Inovasi utamanya adalah tokenizer suara kontinu dengan frame rate ultra-rendah 7.5Hz, yang secara signifikan meningkatkan efisiensi komputasi untuk sekuens panjang sambil mempertahankan kualitas audio
- Mengadopsi framework next-token diffusion - LLM memahami konteks teks, dan diffusion head menghasilkan detail akustik berkualitas tinggi
- VibeVoice-ASR (7B): memproses hingga 60 menit audio dalam satu pass, dengan output terstruktur untuk pembicara (Who), timestamp (When), dan isi (What)
- Fitur hotword yang disesuaikan pengguna meningkatkan akurasi pengenalan istilah spesifik domain
- Model multibahasa dengan dukungan native untuk lebih dari 50 bahasa
- Akan terintegrasi ke Hugging Face Transformers mulai Maret 2026
- Mendukung inferensi vLLM untuk inferensi yang lebih cepat dan kode fine-tuning telah dirilis
- VibeVoice-TTS (1.5B): menghasilkan suara percakapan hingga 90 menit dalam satu pass, mendukung hingga 4 pembicara sekaligus
- Menghasilkan suara alami yang ekspresif dengan dukungan multibahasa, mampu menangkap nuansa emosional dan dinamika percakapan
- Dirilis pada 25 Agustus 2025, tetapi kemudian ditemukan kasus penggunaan yang tidak sesuai dengan niat awal, sehingga pada 5 September 2025 kode TTS dihapus dari repositori
- VibeVoice-Realtime (0.5B): TTS real-time hingga 10 menit, dengan output suara pertama dalam sekitar 300 milidetik
- Model text-to-speech real-time ringan dengan 0.5B parameter yang ramah untuk deployment
- Mendukung input teks streaming
- Dirilis pada 3 Desember 2025, lalu pada 16 Desember ditambahkan secara eksperimental suara multibahasa untuk 9 bahasa (DE, FR, IT, JP, KR, NL, PL, PT, ES) dan 11 suara gaya bahasa Inggris
- Dukungan Apple Silicon (MPS) ditambahkan ke demo Gradio ASR, meningkatkan kemudahan penggunaan di Mac
- Karena berbasis pada model dasar (Qwen2.5 1.5B), model ini dapat mewarisi bias dan kesalahan, serta perlu diwaspadai potensi penyalahgunaan untuk deepfake
- Lisensi MIT
1 komentar
VibeVoice - model sintesis suara open-source generasi berikutnya dari Microsoft
Di GeekNews ini awalnya langsung dibuka ke publik, tetapi karena ada isu, kode VibeVoice-TTS sepertinya sudah dihapus.
Untuk TTS, tampaknya sekarang hanya VibeVoice-Realtime yang bisa digunakan.
Beberapa hari terakhir ini VibeVoice-ASR sepertinya kembali populer, jadi terlihat dibahas di sana-sini.
https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison mencobanya, dan di Mac bisa dijalankan dengan perintah satu baris menggunakan
uvdan mlx-audio.Audio berdurasi 1 jam diproses dalam sekitar 8 menit 45 detik di MacBook Pro M5 Max 128GB.
Bisa dibilang ini seperti
Whisper yang pemisahan pembicaranya bagus