VibeVoice - Model AI suara frontier open-source

xguru · 2026-04-28T13:09:54+09:00

Keluarga model AI suara open-source yang dirilis Microsoft, mencakup TTS (teks→suara) dan ASR (suara→teks) ASR mirip dengan OpenAI Whisper, tetapi fungsi speaker diarization sudah tertanam langsung di dalam model Inovasi utamanya adalah tokenizer suara kontinu dengan frame rate ultra-rendah 7.5Hz, yang sangat meningkatkan efisiensi komputasi untuk sekuens panjang sambil tetap menjaga kualitas audio Mengadopsi framework next-token diffusion - LLM memahami konteks teks, dan diffusion head menghasilkan detail akustik berkualitas tinggi VibeVoice-ASR (7B): memproses hingga 60 menit audio dalam satu pass, dengan keluaran terstruktur untuk pembicara (Who), timestamp (When), dan isi (What) Fitur hotword kustom pengguna meningkatkan akurasi pengenalan untuk istilah spesifik domain Model multibahasa yang mendukung lebih dari 50 bahasa secara native Akan diintegrasikan ke Hugging Face Transformers mulai Maret 2026 Mendukung inferensi vLLM untuk inferensi yang lebih cepat dan kode fine-tuning juga telah dirilis VibeVoice-TTS (1.5B): menghasilkan suara percakapan hingga 90 menit dalam satu pass, mendukung hingga 4 pembicara sekaligus Menghasilkan suara yang alami dan ekspresif dengan dukungan multibahasa, menangkap nuansa emosional dan dinamika percakapan Dirilis pada 25 Agustus 2025, tetapi kemudian ditemukan kasus penggunaan yang tidak sesuai dengan maksud awal, sehingga pada 5 September 2025 kode TTS dihapus dari repositori VibeVoice-Realtime (0.5B): TTS real-time hingga 10 menit, dengan output suara pertama dalam sekitar 300 milidetik Model text-to-speech real-time ringan dengan 0.5B parameter yang ramah untuk deployment Mendukung input teks streaming Dirilis pada 3 Desember 2025, lalu pada 16 Desember ditambahkan secara eksperimental suara multibahasa dalam 9 bahasa (DE, FR, IT, JP, KR, NL, PL, PT, ES) dan 11 suara bergaya bahasa Inggris Dukungan Apple Silicon (MPS) ditambahkan ke demo Gradio ASR, meningkatkan kegunaan di Mac Berbasis model dasar (Qwen2.5 1.5B), sehingga dapat mewarisi bias dan kesalahan, serta perlu kehati-hatian terhadap potensi penyalahgunaan untuk deepfake Lisensi MIT

Keluarga model AI suara open-source yang dirilis Microsoft, mencakup TTS (teks→suara) dan ASR (suara→teks)
ASR mirip dengan OpenAI Whisper, tetapi fungsi speaker diarization sudah tertanam langsung di dalam model
Inovasi utamanya adalah tokenizer suara kontinu dengan frame rate ultra-rendah 7.5Hz, yang sangat meningkatkan efisiensi komputasi untuk sekuens panjang sambil tetap menjaga kualitas audio
Mengadopsi framework next-token diffusion - LLM memahami konteks teks, dan diffusion head menghasilkan detail akustik berkualitas tinggi
VibeVoice-ASR (7B): memproses hingga 60 menit audio dalam satu pass, dengan keluaran terstruktur untuk pembicara (Who), timestamp (When), dan isi (What)
- Fitur hotword kustom pengguna meningkatkan akurasi pengenalan untuk istilah spesifik domain
- Model multibahasa yang mendukung lebih dari 50 bahasa secara native
- Akan diintegrasikan ke Hugging Face Transformers mulai Maret 2026
- Mendukung inferensi vLLM untuk inferensi yang lebih cepat dan kode fine-tuning juga telah dirilis
VibeVoice-TTS (1.5B): menghasilkan suara percakapan hingga 90 menit dalam satu pass, mendukung hingga 4 pembicara sekaligus
- Menghasilkan suara yang alami dan ekspresif dengan dukungan multibahasa, menangkap nuansa emosional dan dinamika percakapan
- Dirilis pada 25 Agustus 2025, tetapi kemudian ditemukan kasus penggunaan yang tidak sesuai dengan maksud awal, sehingga pada 5 September 2025 kode TTS dihapus dari repositori
VibeVoice-Realtime (0.5B): TTS real-time hingga 10 menit, dengan output suara pertama dalam sekitar 300 milidetik
- Model text-to-speech real-time ringan dengan 0.5B parameter yang ramah untuk deployment
- Mendukung input teks streaming
- Dirilis pada 3 Desember 2025, lalu pada 16 Desember ditambahkan secara eksperimental suara multibahasa dalam 9 bahasa (DE, FR, IT, JP, KR, NL, PL, PT, ES) dan 11 suara bergaya bahasa Inggris
- Dukungan Apple Silicon (MPS) ditambahkan ke demo Gradio ASR, meningkatkan kegunaan di Mac
Berbasis model dasar (Qwen2.5 1.5B), sehingga dapat mewarisi bias dan kesalahan, serta perlu kehati-hatian terhadap potensi penyalahgunaan untuk deepfake
Lisensi MIT

VibeVoice - Model AI suara frontier open-source

Bacaan terkait

1 komentar