1 poin oleh GN⁺ 5 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Terdiri dari keluarga model AI suara yang mencakup TTS dan ASR sekaligus, dan menangani baik pembuatan suara berdurasi panjang maupun pengenalan suara berdurasi panjang
  • Arsitektur intinya menggabungkan tokenizer suara kontinu ultra-low-frame 7.5 Hz dan next-token diffusion, dengan tujuan menangani sekuens panjang sambil menjaga kualitas audio dan efisiensi komputasi
  • Untuk memahami konteks teks dan alur percakapan digunakan LLM, sementara untuk menghasilkan detail akustik berfidelitas tinggi digunakan struktur dengan diffusion head
  • VibeVoice-ASR memproses audio hingga 60 menit dalam satu pass, dan menghasilkan transkripsi terstruktur yang memuat informasi pembicara, stempel waktu, dan isi ujaran sekaligus
  • Model ASR mendukung lebih dari 50 bahasa dan dapat menerima hotword kustom atau informasi konteks untuk meningkatkan akurasi pengenalan yang terspesialisasi pada domain tertentu
  • Untuk sisi ASR, kode finetuning dan dukungan inferensi vLLM telah dirilis, dan juga bisa langsung digunakan di pustaka Hugging Face Transformers
  • VibeVoice-TTS mensintesis suara hingga sepanjang 90 menit dalam satu pass, dan mendukung hingga 4 pembicara dalam satu percakapan
  • TTS menekankan suara percakapan yang ekspresif dan konsistensi pembicara, serta mendukung bahasa Inggris, Mandarin, dan bahasa lainnya
  • Berdasarkan pengumuman di repositori, kode VibeVoice-TTS saat ini telah dihapus, dan dinyatakan telah dihapus dari repositori setelah ditemukan penggunaan yang tidak sesuai dengan stated intent setelah dirilis
  • VibeVoice-Realtime-0.5B adalah model TTS real-time berukuran 0.5B yang mendukung input teks streaming, latensi audio pertama sekitar 300 ms, dan pembuatan suara panjang sekitar 10 menit
  • Pada model Realtime ditambahkan suara eksperimental multibahasa untuk 9 bahasa dan 11 suara bergaya bahasa Inggris, dan disebutkan bahwa jenis suara yang lebih beragam akan terus ditambahkan
  • Jalur distribusinya terutama dirangkum melalui bobot Hugging Face, Playground, dan Colab sehingga memungkinkan pengujian cepat
  • Repositori ini ditujukan khusus untuk keperluan riset dan pengembangan, dan tidak disarankan digunakan untuk lingkungan komersial atau nyata tanpa pengujian serta pengembangan tambahan
  • Model ini dapat mewarisi bias dan kesalahan dari model dasar Qwen2.5 1.5b, dan karena ada risiko deepfake, peniruan identitas, serta penyebaran misinformasi, penggunaan yang legal dan bertanggung jawab serta pengungkapan konten buatan AI dianjurkan

1 komentar

 
GN⁺ 5 jam lalu
Komentar Hacker News
  • Ini bahkan bukan model baru, dan untuk standar STT halusinasinya banyak, inferensinya berat dan lambat, serta performa multibahasanya juga kurang bagus
    Saya tidak tahu soal fitur lainnya, tapi di sini saya murni berbicara hanya tentang speech to text

    • Bukan berarti sama sekali tidak ada kelebihan, dalam beberapa kasus ekspresivitasnya memang sedikit lebih baik
      Tapi secara keseluruhan terasa seperti dilatih dengan data yang penuh noise, memakai memori lebih banyak, dan juga tidak cepat
      Saya sedang membicarakan versi 7B yaitu vibevoice-community yang dulu sempat dirilis sebentar lalu segera ditarik, dan sekarang saya masih memakai chatterbox turbo dan kadang qwen TTS
    • Saya tidak paham kenapa hari ini tiba-tiba jadi mendapat perhatian sebesar ini
      Di Twitter juga isinya cuma membahas ini
    • TTS-nya juga tidak bagus
      Saya mencobanya beberapa hari, pertama-tama dokumentasi model 1.5B tidak ada, dan model realtime 0.5B sangat buruk
      Ia mengubah teks per baris, menyisipkan musik secara acak, dan bahkan tidak bisa menangani karakter khusus seperti dengan baik
      Jujur saja, cukup mengecewakan
    • SOTA saat ini sudah jauh lebih maju daripada ini
    • Berkat komentar ini saya jadi sangat menghemat waktu
      Saya langsung membatalkan bintang repo-nya dan akan melewatinya saja
  • Menurut saya kita harus berhenti menyebut model seperti ini sebagai open source
    Kenyataannya ini hanya open weight, kode pelatihannya proprietari dan tidak pernah dibuka
    https://github.com/microsoft/VibeVoice/issues/102

    • Sekarang kita hidup di dunia yang menyebut freeware sebagai open source
      Maaf, Stallman
    • Keluhan yang saya simpan khusus untuk kasus seperti ini adalah model yang didistribusikan dengan lisensi non-open-source tetapi tetap disebut open source
      Saat sebuah proyek ditulis sebagai open source, yang lebih penting bagi saya adalah apa yang sebenarnya bisa saya lakukan dengannya
    • Kapal ini sudah berlayar
      Pembedaan open source vs open weight sekarang tampaknya sudah masuk kategori seperti perdebatan hacker/cracker atau perdebatan pengucapan GIF
    • Kalau dipikir sebaliknya, meskipun saya hanya memberikan biner dari kode MIT tanpa pernah mengirimkan source-nya, kode itu masih bisa tetap menjadi open source
      Artinya lisensinya sendiri tetap MIT, hanya saja tidak ada akses kepadanya
      Meski begitu, saya sepenuhnya setuju bahwa Microsoft melebih-lebihkan keterbukaan di sini, dan itu juga tidak mengejutkan
    • Setidaknya ini berlisensi MIT
      Data pelatihan yang tertutup juga mengganggu, tetapi bagi saya lisensi yang membatasi lebih mengganggu lagi
  • Dalam kategori ini menurut saya Voxtral jauh lebih baik
    Ditambah lagi ukurannya cukup kecil hingga bisa dijalankan di webGPU
    https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU

  • Kevin Beaumont memposting cerita yang menarik tentang repo/product/author ini
    https://cyberplace.social/@GossiTheDog/116454846703138243

    • Upaya mereka untuk menyembunyikan tautannya benar-benar mengesankan
  • Sepertinya ini proyek yang sempat dirilis Microsoft lalu segera ditarik karena alasan security/safety, bukan?
    Saya penasaran apa yang berubah setelah itu

    • Coba lihat bagian News di readme
      Model TTS aslinya sudah hilang dari repo ini dan masih bisa ditemukan di tempat lain
      Sebagai gantinya, model SST/ASR, long form TTS, dan streaming TTS adalah yang lebih baru
    • Setidaknya bagi saya ini cukup membingungkan
      Karena proyek ini membahas banyak area sekaligus, termasuk hal-hal yang baru saja disebutkan
  • Agak menarik melihat tempat seperti Microsoft meresmikan vibe sebagai istilah produk AI

    • Terutama karena vibe coded bisa punya nuansa negatif, seperti dirakit terburu-buru tanpa pemahaman
    • Saya juga sempat bertanya-tanya apakah ini permainan kata dari STT IBM terkutuk dari era 90-an, Via Voice
    • Yang justru lebih mengejutkan adalah mereka menahan diri untuk tidak menamainya Copilot
  • speech-swift yang saya buat juga berfokus pada pemrosesan suara on-device seperti VibeVoice
    Bedanya, ini dibuat agar ASR, TTS, VAD bisa berjalan dengan memanfaatkan kemampuan Apple Silicon tanpa ketergantungan cloud
    ASR mendukung 52 bahasa dan real-time factor-nya 0.06
    https://soniqo.audio/benchmarks

  • Tulisan Simon tadi malam bagus
    https://simonwillison.net/2026/Apr/27/vibevoice/

    • Sebagai catatan, tulisan itu hanya membahas sisi Speech-to-Text / Speech-Recognition
      Wilayahnya mirip whisper, dan selain itu ada juga model long-form TTS dan streaming TTS yang terpisah
    • Katanya VibeVoice hanya bisa memproses audio hingga 1 jam
      Saya penasaran kenapa begitu
  • Saya memilih Microsoft Sam sebagai suara default komputer

    • Saya masih ingat main di lab komputer bersama teman-teman, memasukkan string panjang ke Microsoft Sam untuk membuat efek suara lucu
      Sususususususu
  • Wah, akhirnya ada produk AI Microsoft yang namanya bukan Copilot

    • Seandainya dinamai Vopilot, rasanya bakal pas banget