12 poin oleh xguru 9 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Keluarga model AI suara open source yang dirilis Microsoft, mencakup TTS (teks→suara) dan ASR (suara→teks)
  • ASR mirip dengan Open AI Whisper, tetapi fitur speaker diarization tertanam langsung di dalam model
  • Inovasi utamanya adalah tokenizer suara kontinu dengan frame rate ultra-rendah 7.5Hz, yang secara signifikan meningkatkan efisiensi komputasi untuk sekuens panjang sambil mempertahankan kualitas audio
  • Mengadopsi framework next-token diffusion - LLM memahami konteks teks, dan diffusion head menghasilkan detail akustik berkualitas tinggi
  • VibeVoice-ASR (7B): memproses hingga 60 menit audio dalam satu pass, dengan output terstruktur untuk pembicara (Who), timestamp (When), dan isi (What)
    • Fitur hotword yang disesuaikan pengguna meningkatkan akurasi pengenalan istilah spesifik domain
    • Model multibahasa dengan dukungan native untuk lebih dari 50 bahasa
    • Akan terintegrasi ke Hugging Face Transformers mulai Maret 2026
    • Mendukung inferensi vLLM untuk inferensi yang lebih cepat dan kode fine-tuning telah dirilis
  • VibeVoice-TTS (1.5B): menghasilkan suara percakapan hingga 90 menit dalam satu pass, mendukung hingga 4 pembicara sekaligus
    • Menghasilkan suara alami yang ekspresif dengan dukungan multibahasa, mampu menangkap nuansa emosional dan dinamika percakapan
    • Dirilis pada 25 Agustus 2025, tetapi kemudian ditemukan kasus penggunaan yang tidak sesuai dengan niat awal, sehingga pada 5 September 2025 kode TTS dihapus dari repositori
  • VibeVoice-Realtime (0.5B): TTS real-time hingga 10 menit, dengan output suara pertama dalam sekitar 300 milidetik
    • Model text-to-speech real-time ringan dengan 0.5B parameter yang ramah untuk deployment
    • Mendukung input teks streaming
    • Dirilis pada 3 Desember 2025, lalu pada 16 Desember ditambahkan secara eksperimental suara multibahasa untuk 9 bahasa (DE, FR, IT, JP, KR, NL, PL, PT, ES) dan 11 suara gaya bahasa Inggris
    • Dukungan Apple Silicon (MPS) ditambahkan ke demo Gradio ASR, meningkatkan kemudahan penggunaan di Mac
  • Karena berbasis pada model dasar (Qwen2.5 1.5B), model ini dapat mewarisi bias dan kesalahan, serta perlu diwaspadai potensi penyalahgunaan untuk deepfake
  • Lisensi MIT

1 komentar

 
xguru 9 jam lalu

VibeVoice - model sintesis suara open-source generasi berikutnya dari Microsoft
Di GeekNews ini awalnya langsung dibuka ke publik, tetapi karena ada isu, kode VibeVoice-TTS sepertinya sudah dihapus.
Untuk TTS, tampaknya sekarang hanya VibeVoice-Realtime yang bisa digunakan.
Beberapa hari terakhir ini VibeVoice-ASR sepertinya kembali populer, jadi terlihat dibahas di sana-sini.

https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison mencobanya, dan di Mac bisa dijalankan dengan perintah satu baris menggunakan uv dan mlx-audio.
Audio berdurasi 1 jam diproses dalam sekitar 8 menit 45 detik di MacBook Pro M5 Max 128GB.
Bisa dibilang ini seperti Whisper yang pemisahan pembicaranya bagus