VibeVoice - Model sintesis suara open-source generasi berikutnya dari Microsoft

(microsoft.github.io)

5 poin oleh GN⁺ 2025-09-04 | 1 komentar | Bagikan ke WhatsApp

Model sintesis suara TTS baru yang dirancang untuk menghasilkan suara percakapan multi-pembicara yang alami dalam durasi panjang dari teks
Dirancang untuk mengatasi masalah skalabilitas, konsistensi pembicara, dan pergantian giliran yang alami yang menjadi keterbatasan sistem sebelumnya
Dapat mensintesis audio hingga 90 menit dan hingga 4 pembicara secara bersamaan, melampaui model sebelumnya yang terbatas pada 1–2 pembicara
Intinya adalah penggunaan tokenizer suara kontinu dengan frame rate ultra-rendah 7.5Hz (Acoustic/Semantic) untuk memproses sekuens audio panjang secara efisien sambil mempertahankan kualitas suara
Menggunakan pendekatan Next-Token Diffusion untuk memodelkan data kontinu secara efisien, dan untuk itu memperkenalkan tokenizer suara kontinu baru yang menawarkan rasio kompresi 80 kali lebih tinggi dibanding Encodec

Pengenalan

Teknologi TTS terbaru telah berhasil mensintesis ujaran pendek dari satu pembicara dengan kualitas tinggi, tetapi sintesis percakapan multi-pembicara berdurasi panjang masih menjadi tantangan
- Pendekatan sebelumnya hanya menyambungkan ujaran secara sederhana sehingga menghasilkan transisi yang tidak alami
- Sulit menghasilkan pergantian giliran yang alami dan generasi yang memahami konteks
Tujuan: mendukung sintesis suara percakapan panjang dan multi-pembicara seperti podcast
Untuk mengatasi hal ini, VibeVoice menggabungkan tokenizer suara dengan frame rate ultra-rendah (7.5Hz) dan arsitektur Diffusion berbasis LLM
Hasilnya, audio multi-pembicara hingga 90 menit dapat disintesis secara stabil

Inovasi teknis

Tokenizer suara kontinu (7.5Hz):
- Menggunakan tokenizer Acoustic + Semantic secara paralel
- Menjamin efisiensi pemrosesan sekuens panjang sekaligus menjaga fidelitas audio
Framework next-token diffusion:
- LLM memahami konteks teks dan alur percakapan
- Diffusion head menghasilkan detail akustik beresolusi tinggi
Hasil: sintesis suara yang jauh lebih alami dan terdengar seperti manusia dibanding sebelumnya

Performa

Mendukung sintesis suara hingga 90 menit
Mendukung hingga 4 pembicara (melampaui batas 1–2 pembicara pada model sebelumnya)
Memberikan suara yang ekspresif dan konsisten dalam berbagai situasi percakapan

Hasil eksperimen

Sintesis percakapan berdurasi panjang (Podcast)

Dievaluasi menggunakan dataset percakapan berdurasi 1 jam
Mengukur WER (word error rate), SIM (speaker similarity), dan evaluasi subjektif (MOS)
VIBEVOICE-7B mencatat performa terbaik dengan Realism 3.71, Richness 3.81, Preference 3.75
Lebih unggul daripada model terbaru seperti Gemini 2.5 Pro dan ElevenLabs v3

Kesimpulan dan keterbatasan

VibeVoice adalah framework TTS generasi berikutnya yang mendukung sintesis percakapan alami hingga 90 menit dan 4 pembicara
Dibanding model open-source dan komersial yang ada, kualitasnya unggul baik secara subjektif maupun objektif
Keterbatasan:
- Bahasa selain Inggris dan Mandarin dapat menghasilkan hasil yang tidak terduga
- Audio non-suara (suara latar, musik) tidak didukung
- Ucapan simultan (Overlapping Speech) tidak didukung
- Ada risiko penyalahgunaan untuk deepfake dan disinformasi
Karena itu, saat ini disediakan sebagai open-source khusus untuk tujuan riset dan pengembangan, dan tidak direkomendasikan untuk penggunaan komersial

1 komentar

GN⁺ 2025-09-04

Komentar Hacker News

Setelah melihat banyak komentar yang memuji model suara ini sebagai sangat realistis, saya datang ke halamannya dengan penuh harapan, tetapi setelah benar-benar mendengarnya kesan saya sama sekali berbeda. Kualitas audionya sendiri cukup baik, tetapi intonasi di sebagian besar kalimat terasa canggung dan jelas terdengar mekanis. Dibandingkan TTS beberapa tahun lalu ini memang cukup mengesankan, tetapi jika dibandingkan dengan suara AI masa kini, tidak terlalu mengesankan. Terutama, saya merasa bahkan suara AI yang sering terdengar di YouTube Shorts pun sudah cukup sebagus kebanyakan sampel di situs ini. Satu-satunya hal yang menurut saya mengesankan adalah sampel bahasa Inggris dan Tionghoa (mungkin Mandarin), yang berpindah antar dua bahasa itu dengan sangat alami. Tetapi saya tidak terbiasa dengan bahasa Tionghoa sehingga tidak bisa menilai pelafalannya dengan baik, dan mungkin peralihan itu juga lebih mudah karena Hanzi dan alfabet bisa dibedakan dengan jelas. Saya menduga kalau dua bahasanya memakai sistem tulisan yang sama, hasilnya mungkin tidak akan sealami ini. Terakhir, sampel nyanyiannya cukup sulit didengar, dan saya sangat penasaran kenapa sampel seperti ini ditambahkan
- Komentar tim pengembang tentang nyanyian dan musik latar terasa agak aneh. Saya sangat menangkap nuansa bahwa mereka tidak sempat menemukan cara menghapus musik latar sebelum tenggat paper, lalu begitu saja mengklaim itu sebagai sebuah “fitur”. Kesan saya, itu bukan sesuatu yang benar-benar mereka tambahkan karena dianggap sebagai pembeda
- Kalau ada model TTS yang lebih baik daripada ini, saya ingin direkomendasikan. Selalu ada orang yang melebih-lebihkan kemajuan, dan ada juga yang sebaliknya meremehkan, tetapi saya rasa keduanya tidak menghambat perkembangan. Dari model yang pernah saya dengar sejauh ini, ini yang terbaik, tetapi mungkin ada yang lebih baik yang belum saya tahu
- Model ini memang cukup bagus, tetapi bukan yang terbaik di antara model gratis. Chatterbox terdengar lebih realistis, jauh lebih sedikit kesan mekanisnya, dan intonasinya juga lebih alami (meski belum sempurna)
- Saya merasa suara perempuan jauh lebih alami dan meyakinkan dibanding suara laki-laki. Sebaliknya, suara laki-lakinya tidak terasa jauh lebih baik daripada TTS 10 tahun lalu
- Kekuatan sebenarnya dari model ini adalah voice cloning. Jika Anda memasukkan sampel suara sendiri ke folder voices, hasilnya bekerja sangat baik
Saya berharap di Microsoft, agen coding Open Source mereka benar-benar dinamai Microsoft VibeCode. Atau diberi nama “Lo”, lalu bisa dipakai bersama Phi. Jadi bisa ngoding dengan “Lo Phi” dan vibe code. Info tentang model bahasa Phi 4 dari Microsoft
- Melihat sejarah marketing Microsoft, saya rasa pada akhirnya namanya akan jadi sesuatu yang lugas seperti "Microsoft Copilot Code Generator for VSCode" atau malah nama mendadak seperti "Zunega"
- Ide yang jenius
VibeVoice-Large adalah TTS lokal pertama yang mendukung pelafalan bahasa Finlandia dengan sangat alami dan nyaris tanpa aksen. Saya mencobanya sendiri kemarin, dan sangat terkesan terutama karena voice cloning dan emosinya juga bisa ditiru
Secara teknis kualitasnya memang cukup tinggi, tetapi terutama pada suara laki-laki, kesan pertama yang langsung muncul adalah bahwa ini suara buatan AI. Pengetahuan audio saya kurang, jadi saya tidak bisa menjelaskan alasannya dengan baik
- Saya juga bukan audio engineer, tetapi suara AI ini terasa seperti bunyi gelombang “saw-tooth”. Model dasar atau teknik kelas rendah cenderung kurang melakukan sampling, jadi ada banyak semacam pulsa audio (dengung getaran) yang meninggalkan kesan suara mekanis yang bergetar. Semakin bagus modelnya, bentuk gelombangnya berubah lebih halus. Referensi tentang waveform
- Menurut saya timbrenya terasa terpotong-potong seperti balok, dan kalau suaranya divisualisasikan, bentuk gelombangnya tidak punya kelembutan dan malah menimbulkan resonansi seperti kotak logam
- Setelah mendengarnya langsung, saya bisa memahami maksudnya. Ada bagian yang terdengar goyah, atau seperti mp3 yang dikompresi terlalu keras
Suara laki-lakinya terasa jauh lebih artifisial dibanding suara perempuan, sampai-sampai hampir terdengar seperti robot. Melihat kebanyakan sampel resmi dimulai dengan suara perempuan, tim pengembang tampaknya juga menyadari masalah ini
- Saya merasakan hal yang sama. Suara laki-lakinya memang terdengar lebih artifisial
Saya penasaran apakah ada daftar atau peringkat populer terbaru untuk model TTS open-weight. Sebenarnya saya lebih tertarik pada STT (ASR), tetapi pilihannya terlalu sedikit
- Bisa dilihat di daftar model TTS di huggingface. Model yang masuk trending berarti memang cukup layak dipakai. Karena kriteria penilaian sangat subjektif, yang paling penting adalah mendengarkannya sendiri. Untuk model yang bahkan tidak masuk tren di HF, kemungkinan besar memang tidak terlalu bagus
- TTS yang bisa dibilang terbaik: VibeVoice, Chatterbox, Dia, Higgs, F5 TTS, Kokoro, Cosy Voice, dan XTTS-2
- Klik leaderboard dari menu hamburger maka akan muncul halaman peringkat TTS-AGI/TTS-Arena-V2
- Yang terbaik
Pengguna dengan performa GPU lemah akan kesulitan memakai model ini. Dengan GPU 1080 lama, model ini tidak bisa berjalan dengan baik, dan saat dijalankan di CPU dengan torch.float32 butuh 832 detik untuk menghasilkan audio berdurasi 66 detik. Saat saya ganti ke torch.bfloat16, muncul artefak noise aneh pada audio. Dalam kondisi kekurangan GPU, model TTS yang paling berguna sejauh ini adalah Kokoro. Selain itu, seperti yang disebut seseorang di thread ini, saat ini belum ada fitur untuk mengendalikan output TTS secara rinci dengan menambahkan annotation terpisah ke teks. Saya rasa arah perkembangan berikutnya adalah menambahkan tahap pemrosesan perantara pada teks untuk menghasilkan anotasi, lalu memasukkannya ke TTS. Dengan begitu pengguna bisa mengontrol hasilnya dengan lebih detail
- Menurut saya ini terlalu dibesar-besarkan. macOS sudah sejak lama mendukung TTS yang instan dan cukup berkualitas baik, tanpa perlu model berat seperti ini. Tidak ada latensi sama sekali. Hype “AI” ini menurut saya benar-benar berlebihan
Katanya open source, lalu kenapa data latihnya tidak dibuka?
- Sebagian besar data hasil crawling punya banyak risiko hukum seperti hak cipta, syarat penggunaan, privasi, dan lain-lain, jadi dari sudut pandang perusahaan komersial, tidak bijak untuk membuat semuanya benar-benar “terbuka” sepenuhnya
Dialog sampel Spontaneous Emotion terdengar seperti suara yang memberi kesan tim pengembang sedang “mengurai” emosi dengan LLM. Sampel nyanyiannya mungkin akan lebih baik kalau dihilangkan. Model ini masih sama sekali tidak cocok untuk bernyanyi
- Gara-gara lagu ini, saya jadi mencarinya lagi dan mendengarkannya. Lagu ini benar-benar luar biasa dalam menggugah emosi. Nyanyian robot masih harus menempuh jalan panjang
Saat ini ada dua model TTS yang dianggap terbaik: HiggsAudio dan VibeVoice. Secara pribadi, menurut saya Higgs jauh lebih unggul daripada Vibe dalam hal kecepatan maupun kualitas suara. Untuk ekspresivitas saya kurang yakin, tetapi tetap sangat saya sarankan untuk tidak melewatkannya

VibeVoice - Model sintesis suara open-source generasi berikutnya dari Microsoft

Pengenalan

Inovasi teknis

Performa

Hasil eksperimen

Sintesis percakapan berdurasi panjang (Podcast)

Kesimpulan dan keterbatasan

Bacaan terkait

1 komentar

Komentar Hacker News