36 poin oleh xguru 20 hari lalu | 1 komentar | Bagikan ke WhatsApp
  • Keluarga model AI suara open-source yang dirilis Microsoft, mencakup TTS (teks→suara) dan ASR (suara→teks)
  • ASR mirip dengan OpenAI Whisper, tetapi fungsi speaker diarization sudah tertanam langsung di dalam model
  • Inovasi utamanya adalah tokenizer suara kontinu dengan frame rate ultra-rendah 7.5Hz, yang sangat meningkatkan efisiensi komputasi untuk sekuens panjang sambil tetap menjaga kualitas audio
  • Mengadopsi framework next-token diffusion - LLM memahami konteks teks, dan diffusion head menghasilkan detail akustik berkualitas tinggi
  • VibeVoice-ASR (7B): memproses hingga 60 menit audio dalam satu pass, dengan keluaran terstruktur untuk pembicara (Who), timestamp (When), dan isi (What)
    • Fitur hotword kustom pengguna meningkatkan akurasi pengenalan untuk istilah spesifik domain
    • Model multibahasa yang mendukung lebih dari 50 bahasa secara native
    • Akan diintegrasikan ke Hugging Face Transformers mulai Maret 2026
    • Mendukung inferensi vLLM untuk inferensi yang lebih cepat dan kode fine-tuning juga telah dirilis
  • VibeVoice-TTS (1.5B): menghasilkan suara percakapan hingga 90 menit dalam satu pass, mendukung hingga 4 pembicara sekaligus
    • Menghasilkan suara yang alami dan ekspresif dengan dukungan multibahasa, menangkap nuansa emosional dan dinamika percakapan
    • Dirilis pada 25 Agustus 2025, tetapi kemudian ditemukan kasus penggunaan yang tidak sesuai dengan maksud awal, sehingga pada 5 September 2025 kode TTS dihapus dari repositori
  • VibeVoice-Realtime (0.5B): TTS real-time hingga 10 menit, dengan output suara pertama dalam sekitar 300 milidetik
    • Model text-to-speech real-time ringan dengan 0.5B parameter yang ramah untuk deployment
    • Mendukung input teks streaming
    • Dirilis pada 3 Desember 2025, lalu pada 16 Desember ditambahkan secara eksperimental suara multibahasa dalam 9 bahasa (DE, FR, IT, JP, KR, NL, PL, PT, ES) dan 11 suara bergaya bahasa Inggris
    • Dukungan Apple Silicon (MPS) ditambahkan ke demo Gradio ASR, meningkatkan kegunaan di Mac
  • Berbasis model dasar (Qwen2.5 1.5B), sehingga dapat mewarisi bias dan kesalahan, serta perlu kehati-hatian terhadap potensi penyalahgunaan untuk deepfake
  • Lisensi MIT

1 komentar

 
xguru 20 hari lalu

VibeVoice - model sintesis suara open-source generasi berikutnya dari Microsoft
Di GeekNews sempat langsung dipublikasikan pada awalnya, tetapi karena ada isu, kode VibeVoice-TTS sepertinya dihapus.
Untuk TTS, saat ini tampaknya hanya VibeVoice-Realtime yang bisa digunakan.
Beberapa hari terakhir, VibeVoice tampaknya kembali populer karena VibeVoice-ASR, dan terlihat dibahas di berbagai tempat.

https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison menguji ASR, dan di Mac bisa dijalankan dengan perintah satu baris menggunakan uv dan mlx-audio,
serta memproses audio berdurasi 1 jam dalam sekitar 8 menit 45 detik di MacBook Pro M5 Max 128GB.
Bisa dianggap sebagai Whisper yang pemisahan pembicaranya bagus