5 poin oleh GN⁺ 2025-09-04 | Belum ada komentar. | Bagikan ke WhatsApp
  • Model sintesis suara TTS baru yang dirancang untuk menghasilkan suara percakapan multi-pembicara yang alami dalam durasi panjang dari teks
  • Dirancang untuk mengatasi masalah skalabilitas, konsistensi pembicara, dan pergantian giliran yang alami yang menjadi keterbatasan sistem sebelumnya
  • Dapat mensintesis audio hingga 90 menit dan hingga 4 pembicara secara bersamaan, melampaui model sebelumnya yang terbatas pada 1–2 pembicara
  • Intinya adalah penggunaan tokenizer suara kontinu dengan frame rate ultra-rendah 7.5Hz (Acoustic/Semantic) untuk memproses sekuens audio panjang secara efisien sambil mempertahankan kualitas suara
  • Menggunakan pendekatan Next-Token Diffusion untuk memodelkan data kontinu secara efisien, dan untuk itu memperkenalkan tokenizer suara kontinu baru yang menawarkan rasio kompresi 80 kali lebih tinggi dibanding Encodec

Pengenalan

  • Teknologi TTS terbaru telah berhasil mensintesis ujaran pendek dari satu pembicara dengan kualitas tinggi, tetapi sintesis percakapan multi-pembicara berdurasi panjang masih menjadi tantangan
    • Pendekatan sebelumnya hanya menyambungkan ujaran secara sederhana sehingga menghasilkan transisi yang tidak alami
    • Sulit menghasilkan pergantian giliran yang alami dan generasi yang memahami konteks
  • Tujuan: mendukung sintesis suara percakapan panjang dan multi-pembicara seperti podcast
  • Untuk mengatasi hal ini, VibeVoice menggabungkan tokenizer suara dengan frame rate ultra-rendah (7.5Hz) dan arsitektur Diffusion berbasis LLM
  • Hasilnya, audio multi-pembicara hingga 90 menit dapat disintesis secara stabil

Inovasi teknis

  • Tokenizer suara kontinu (7.5Hz):
    • Menggunakan tokenizer Acoustic + Semantic secara paralel
    • Menjamin efisiensi pemrosesan sekuens panjang sekaligus menjaga fidelitas audio
  • Framework next-token diffusion:
    • LLM memahami konteks teks dan alur percakapan
    • Diffusion head menghasilkan detail akustik beresolusi tinggi
  • Hasil: sintesis suara yang jauh lebih alami dan terdengar seperti manusia dibanding sebelumnya

Performa

  • Mendukung sintesis suara hingga 90 menit
  • Mendukung hingga 4 pembicara (melampaui batas 1–2 pembicara pada model sebelumnya)
  • Memberikan suara yang ekspresif dan konsisten dalam berbagai situasi percakapan

Hasil eksperimen

Sintesis percakapan berdurasi panjang (Podcast)

  • Dievaluasi menggunakan dataset percakapan berdurasi 1 jam
  • Mengukur WER (word error rate), SIM (speaker similarity), dan evaluasi subjektif (MOS)
  • VIBEVOICE-7B mencatat performa terbaik dengan Realism 3.71, Richness 3.81, Preference 3.75
  • Lebih unggul daripada model terbaru seperti Gemini 2.5 Pro dan ElevenLabs v3

Kesimpulan dan keterbatasan

  • VibeVoice adalah framework TTS generasi berikutnya yang mendukung sintesis percakapan alami hingga 90 menit dan 4 pembicara
  • Dibanding model open-source dan komersial yang ada, kualitasnya unggul baik secara subjektif maupun objektif
  • Keterbatasan:
    • Bahasa selain Inggris dan Mandarin dapat menghasilkan hasil yang tidak terduga
    • Audio non-suara (suara latar, musik) tidak didukung
    • Ucapan simultan (Overlapping Speech) tidak didukung
    • Ada risiko penyalahgunaan untuk deepfake dan disinformasi
  • Karena itu, saat ini disediakan sebagai open-source khusus untuk tujuan riset dan pengembangan, dan tidak direkomendasikan untuk penggunaan komersial

Belum ada komentar.

Belum ada komentar.