VibeVoice - AI suara frontier open-source

(github.com/microsoft)

1 poin oleh GN⁺ 5 jam lalu | 1 komentar | Bagikan ke WhatsApp

Terdiri dari keluarga model AI suara yang mencakup TTS dan ASR sekaligus, dan menangani baik pembuatan suara berdurasi panjang maupun pengenalan suara berdurasi panjang
Arsitektur intinya menggabungkan tokenizer suara kontinu ultra-low-frame 7.5 Hz dan next-token diffusion, dengan tujuan menangani sekuens panjang sambil menjaga kualitas audio dan efisiensi komputasi
Untuk memahami konteks teks dan alur percakapan digunakan LLM, sementara untuk menghasilkan detail akustik berfidelitas tinggi digunakan struktur dengan diffusion head
VibeVoice-ASR memproses audio hingga 60 menit dalam satu pass, dan menghasilkan transkripsi terstruktur yang memuat informasi pembicara, stempel waktu, dan isi ujaran sekaligus
Model ASR mendukung lebih dari 50 bahasa dan dapat menerima hotword kustom atau informasi konteks untuk meningkatkan akurasi pengenalan yang terspesialisasi pada domain tertentu
Untuk sisi ASR, kode finetuning dan dukungan inferensi vLLM telah dirilis, dan juga bisa langsung digunakan di pustaka Hugging Face Transformers
VibeVoice-TTS mensintesis suara hingga sepanjang 90 menit dalam satu pass, dan mendukung hingga 4 pembicara dalam satu percakapan
TTS menekankan suara percakapan yang ekspresif dan konsistensi pembicara, serta mendukung bahasa Inggris, Mandarin, dan bahasa lainnya
Berdasarkan pengumuman di repositori, kode VibeVoice-TTS saat ini telah dihapus, dan dinyatakan telah dihapus dari repositori setelah ditemukan penggunaan yang tidak sesuai dengan stated intent setelah dirilis
VibeVoice-Realtime-0.5B adalah model TTS real-time berukuran 0.5B yang mendukung input teks streaming, latensi audio pertama sekitar 300 ms, dan pembuatan suara panjang sekitar 10 menit
Pada model Realtime ditambahkan suara eksperimental multibahasa untuk 9 bahasa dan 11 suara bergaya bahasa Inggris, dan disebutkan bahwa jenis suara yang lebih beragam akan terus ditambahkan
Jalur distribusinya terutama dirangkum melalui bobot Hugging Face, Playground, dan Colab sehingga memungkinkan pengujian cepat
Repositori ini ditujukan khusus untuk keperluan riset dan pengembangan, dan tidak disarankan digunakan untuk lingkungan komersial atau nyata tanpa pengujian serta pengembangan tambahan
Model ini dapat mewarisi bias dan kesalahan dari model dasar Qwen2.5 1.5b, dan karena ada risiko deepfake, peniruan identitas, serta penyebaran misinformasi, penggunaan yang legal dan bertanggung jawab serta pengungkapan konten buatan AI dianjurkan

1 komentar

GN⁺ 5 jam lalu

Komentar Hacker News

Ini bahkan bukan model baru, dan untuk standar STT halusinasinya banyak, inferensinya berat dan lambat, serta performa multibahasanya juga kurang bagus
Saya tidak tahu soal fitur lainnya, tapi di sini saya murni berbicara hanya tentang speech to text
- Bukan berarti sama sekali tidak ada kelebihan, dalam beberapa kasus ekspresivitasnya memang sedikit lebih baik
  Tapi secara keseluruhan terasa seperti dilatih dengan data yang penuh noise, memakai memori lebih banyak, dan juga tidak cepat
  Saya sedang membicarakan versi 7B yaitu vibevoice-community yang dulu sempat dirilis sebentar lalu segera ditarik, dan sekarang saya masih memakai chatterbox turbo dan kadang qwen TTS
- Saya tidak paham kenapa hari ini tiba-tiba jadi mendapat perhatian sebesar ini
  Di Twitter juga isinya cuma membahas ini
- TTS-nya juga tidak bagus
  Saya mencobanya beberapa hari, pertama-tama dokumentasi model 1.5B tidak ada, dan model realtime 0.5B sangat buruk
  Ia mengubah teks per baris, menyisipkan musik secara acak, dan bahkan tidak bisa menangani karakter khusus seperti … dengan baik
  Jujur saja, cukup mengecewakan
- SOTA saat ini sudah jauh lebih maju daripada ini
- Berkat komentar ini saya jadi sangat menghemat waktu
  Saya langsung membatalkan bintang repo-nya dan akan melewatinya saja
Menurut saya kita harus berhenti menyebut model seperti ini sebagai open source
Kenyataannya ini hanya open weight, kode pelatihannya proprietari dan tidak pernah dibuka
https://github.com/microsoft/VibeVoice/issues/102
- Sekarang kita hidup di dunia yang menyebut freeware sebagai open source
  Maaf, Stallman
- Keluhan yang saya simpan khusus untuk kasus seperti ini adalah model yang didistribusikan dengan lisensi non-open-source tetapi tetap disebut open source
  Saat sebuah proyek ditulis sebagai open source, yang lebih penting bagi saya adalah apa yang sebenarnya bisa saya lakukan dengannya
- Kapal ini sudah berlayar
  Pembedaan open source vs open weight sekarang tampaknya sudah masuk kategori seperti perdebatan hacker/cracker atau perdebatan pengucapan GIF
- Kalau dipikir sebaliknya, meskipun saya hanya memberikan biner dari kode MIT tanpa pernah mengirimkan source-nya, kode itu masih bisa tetap menjadi open source
  Artinya lisensinya sendiri tetap MIT, hanya saja tidak ada akses kepadanya
  Meski begitu, saya sepenuhnya setuju bahwa Microsoft melebih-lebihkan keterbukaan di sini, dan itu juga tidak mengejutkan
- Setidaknya ini berlisensi MIT
  Data pelatihan yang tertutup juga mengganggu, tetapi bagi saya lisensi yang membatasi lebih mengganggu lagi
Dalam kategori ini menurut saya Voxtral jauh lebih baik
Ditambah lagi ukurannya cukup kecil hingga bisa dijalankan di webGPU
https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU
Kevin Beaumont memposting cerita yang menarik tentang repo/product/author ini
https://cyberplace.social/@GossiTheDog/116454846703138243
- Upaya mereka untuk menyembunyikan tautannya benar-benar mengesankan
Sepertinya ini proyek yang sempat dirilis Microsoft lalu segera ditarik karena alasan security/safety, bukan?
Saya penasaran apa yang berubah setelah itu
- Coba lihat bagian News di readme
  Model TTS aslinya sudah hilang dari repo ini dan masih bisa ditemukan di tempat lain
  Sebagai gantinya, model SST/ASR, long form TTS, dan streaming TTS adalah yang lebih baru
- Setidaknya bagi saya ini cukup membingungkan
  Karena proyek ini membahas banyak area sekaligus, termasuk hal-hal yang baru saja disebutkan
Agak menarik melihat tempat seperti Microsoft meresmikan vibe sebagai istilah produk AI
- Terutama karena vibe coded bisa punya nuansa negatif, seperti dirakit terburu-buru tanpa pemahaman
- Saya juga sempat bertanya-tanya apakah ini permainan kata dari STT IBM terkutuk dari era 90-an, Via Voice
- Yang justru lebih mengejutkan adalah mereka menahan diri untuk tidak menamainya Copilot
speech-swift yang saya buat juga berfokus pada pemrosesan suara on-device seperti VibeVoice
Bedanya, ini dibuat agar ASR, TTS, VAD bisa berjalan dengan memanfaatkan kemampuan Apple Silicon tanpa ketergantungan cloud
ASR mendukung 52 bahasa dan real-time factor-nya 0.06
https://soniqo.audio/benchmarks
Tulisan Simon tadi malam bagus
https://simonwillison.net/2026/Apr/27/vibevoice/
- Sebagai catatan, tulisan itu hanya membahas sisi Speech-to-Text / Speech-Recognition
  Wilayahnya mirip whisper, dan selain itu ada juga model long-form TTS dan streaming TTS yang terpisah
- Katanya VibeVoice hanya bisa memproses audio hingga 1 jam
  Saya penasaran kenapa begitu
Saya memilih Microsoft Sam sebagai suara default komputer
- Saya masih ingat main di lab komputer bersama teman-teman, memasukkan string panjang ke Microsoft Sam untuk membuat efek suara lucu
  Sususususususu
Wah, akhirnya ada produk AI Microsoft yang namanya bukan Copilot
- Seandainya dinamai Vopilot, rasanya bakal pas banget

VibeVoice - AI suara frontier open-source

Bacaan terkait

1 komentar

Komentar Hacker News