- Terdiri dari keluarga model AI suara yang mencakup TTS dan ASR sekaligus, dan menangani baik pembuatan suara berdurasi panjang maupun pengenalan suara berdurasi panjang
- Arsitektur intinya menggabungkan tokenizer suara kontinu ultra-low-frame 7.5 Hz dan next-token diffusion, dengan tujuan menangani sekuens panjang sambil menjaga kualitas audio dan efisiensi komputasi
- Untuk memahami konteks teks dan alur percakapan digunakan LLM, sementara untuk menghasilkan detail akustik berfidelitas tinggi digunakan struktur dengan diffusion head
- VibeVoice-ASR memproses audio hingga 60 menit dalam satu pass, dan menghasilkan transkripsi terstruktur yang memuat informasi pembicara, stempel waktu, dan isi ujaran sekaligus
- Model ASR mendukung lebih dari 50 bahasa dan dapat menerima hotword kustom atau informasi konteks untuk meningkatkan akurasi pengenalan yang terspesialisasi pada domain tertentu
- Untuk sisi ASR, kode finetuning dan dukungan inferensi vLLM telah dirilis, dan juga bisa langsung digunakan di pustaka Hugging Face Transformers
- VibeVoice-TTS mensintesis suara hingga sepanjang 90 menit dalam satu pass, dan mendukung hingga 4 pembicara dalam satu percakapan
- TTS menekankan suara percakapan yang ekspresif dan konsistensi pembicara, serta mendukung bahasa Inggris, Mandarin, dan bahasa lainnya
- Berdasarkan pengumuman di repositori, kode VibeVoice-TTS saat ini telah dihapus, dan dinyatakan telah dihapus dari repositori setelah ditemukan penggunaan yang tidak sesuai dengan stated intent setelah dirilis
- VibeVoice-Realtime-0.5B adalah model TTS real-time berukuran 0.5B yang mendukung input teks streaming, latensi audio pertama sekitar 300 ms, dan pembuatan suara panjang sekitar 10 menit
- Pada model Realtime ditambahkan suara eksperimental multibahasa untuk 9 bahasa dan 11 suara bergaya bahasa Inggris, dan disebutkan bahwa jenis suara yang lebih beragam akan terus ditambahkan
- Jalur distribusinya terutama dirangkum melalui bobot Hugging Face, Playground, dan Colab sehingga memungkinkan pengujian cepat
- Repositori ini ditujukan khusus untuk keperluan riset dan pengembangan, dan tidak disarankan digunakan untuk lingkungan komersial atau nyata tanpa pengujian serta pengembangan tambahan
- Model ini dapat mewarisi bias dan kesalahan dari model dasar Qwen2.5 1.5b, dan karena ada risiko deepfake, peniruan identitas, serta penyebaran misinformasi, penggunaan yang legal dan bertanggung jawab serta pengungkapan konten buatan AI dianjurkan
1 komentar
Komentar Hacker News
Ini bahkan bukan model baru, dan untuk standar STT halusinasinya banyak, inferensinya berat dan lambat, serta performa multibahasanya juga kurang bagus
Saya tidak tahu soal fitur lainnya, tapi di sini saya murni berbicara hanya tentang speech to text
Tapi secara keseluruhan terasa seperti dilatih dengan data yang penuh noise, memakai memori lebih banyak, dan juga tidak cepat
Saya sedang membicarakan versi 7B yaitu vibevoice-community yang dulu sempat dirilis sebentar lalu segera ditarik, dan sekarang saya masih memakai chatterbox turbo dan kadang qwen TTS
Di Twitter juga isinya cuma membahas ini
Saya mencobanya beberapa hari, pertama-tama dokumentasi model 1.5B tidak ada, dan model realtime 0.5B sangat buruk
Ia mengubah teks per baris, menyisipkan musik secara acak, dan bahkan tidak bisa menangani karakter khusus seperti
…dengan baikJujur saja, cukup mengecewakan
Saya langsung membatalkan bintang repo-nya dan akan melewatinya saja
Menurut saya kita harus berhenti menyebut model seperti ini sebagai open source
Kenyataannya ini hanya open weight, kode pelatihannya proprietari dan tidak pernah dibuka
https://github.com/microsoft/VibeVoice/issues/102
Maaf, Stallman
Saat sebuah proyek ditulis sebagai open source, yang lebih penting bagi saya adalah apa yang sebenarnya bisa saya lakukan dengannya
Pembedaan open source vs open weight sekarang tampaknya sudah masuk kategori seperti perdebatan hacker/cracker atau perdebatan pengucapan GIF
Artinya lisensinya sendiri tetap MIT, hanya saja tidak ada akses kepadanya
Meski begitu, saya sepenuhnya setuju bahwa Microsoft melebih-lebihkan keterbukaan di sini, dan itu juga tidak mengejutkan
Data pelatihan yang tertutup juga mengganggu, tetapi bagi saya lisensi yang membatasi lebih mengganggu lagi
Dalam kategori ini menurut saya Voxtral jauh lebih baik
Ditambah lagi ukurannya cukup kecil hingga bisa dijalankan di webGPU
https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU
Kevin Beaumont memposting cerita yang menarik tentang repo/product/author ini
https://cyberplace.social/@GossiTheDog/116454846703138243
Sepertinya ini proyek yang sempat dirilis Microsoft lalu segera ditarik karena alasan security/safety, bukan?
Saya penasaran apa yang berubah setelah itu
Model TTS aslinya sudah hilang dari repo ini dan masih bisa ditemukan di tempat lain
Sebagai gantinya, model SST/ASR, long form TTS, dan streaming TTS adalah yang lebih baru
Karena proyek ini membahas banyak area sekaligus, termasuk hal-hal yang baru saja disebutkan
Agak menarik melihat tempat seperti Microsoft meresmikan vibe sebagai istilah produk AI
speech-swift yang saya buat juga berfokus pada pemrosesan suara on-device seperti VibeVoice
Bedanya, ini dibuat agar ASR, TTS, VAD bisa berjalan dengan memanfaatkan kemampuan Apple Silicon tanpa ketergantungan cloud
ASR mendukung 52 bahasa dan real-time factor-nya 0.06
https://soniqo.audio/benchmarks
Tulisan Simon tadi malam bagus
https://simonwillison.net/2026/Apr/27/vibevoice/
Wilayahnya mirip whisper, dan selain itu ada juga model long-form TTS dan streaming TTS yang terpisah
Saya penasaran kenapa begitu
Saya memilih Microsoft Sam sebagai suara default komputer
Sususususususu
Wah, akhirnya ada produk AI Microsoft yang namanya bukan Copilot