3 poin oleh GN⁺ 2025-06-12 | 1 komentar | Bagikan ke WhatsApp
  • Chatterbox adalah model TTS (sintesis suara) open-source terbaru yang dirilis oleh Resemble AI
  • Dalam evaluasi perbandingan dengan pesaingnya, ElevenLabs, model ini secara konsisten menunjukkan hasil yang lebih disukai
  • Dilengkapi fitur unik seperti kontrol exaggeration emosi, sehingga memungkinkan beragam ekspresi suara
  • Dilatih dengan backbone Llama berparameter 0.5B dan data terkurasi selama 0.5 juta jam
  • Semua suara hasil generasi dilengkapi watermark Perth bawaan untuk membantu mencegah penggunaan tanpa izin dan pemalsuan

Pengenalan dan pentingnya Chatterbox TTS

  • Chatterbox adalah model TTS (text-to-speech) open-source kelas production yang dikembangkan oleh Resemble AI
  • Menggunakan lisensi MIT sehingga dapat dimanfaatkan secara bebas, dan hasil yang dipublikasikan menunjukkan kualitas unggul bahkan dibanding model komersial closed-source (misalnya ElevenLabs)
  • Dapat diterapkan secara luas untuk pembuatan konten seperti video, meme, game, dan agen AI, serta menjadi TTS open-source pertama yang menyediakan fitur kontrol exaggeration emosi
  • Dapat dicoba dan digunakan langsung melalui aplikasi Hugging Face Gradio atau API sendiri, dan untuk skala besar atau kebutuhan akurasi tinggi tersedia API komersial (ultra-low latency di bawah 200ms)

Fitur utama

  • TTS zero-shot mutakhir: dapat mengekspresikan berbagai gaya pembicara tanpa data tambahan
  • Backbone Llama 0.5B: mengadopsi struktur large language model ke sintesis suara
  • Pengaturan exaggeration/intensitas emosi: menyediakan fitur untuk mengontrol secara rinci intensitas karakter dan emosi tiap pembicara
  • Alignment-informed inference: memanfaatkan informasi penyelarasan fonem dan audio untuk mewujudkan kualitas generasi yang sangat stabil
  • 0.5 juta jam data terkurasi: dilatih menggunakan dataset suara berskala besar dan berkualitas tinggi
  • Watermark bawaan: menggunakan watermark Perth (Perceptual Threshold) dari Resemble AI untuk pelacakan hasil generasi dan pencegahan penggunaan tanpa izin
  • Skrip konversi suara: dilengkapi fitur voice conversion yang mudah digunakan
  • Verifikasi performa: memperoleh hasil evaluasi lebih unggul dibanding ElevenLabs

Tips penggunaan

  • TTS umum/agen suara: dengan nilai default (Exaggeration=0.5, cfg_weight=0.5), kualitas yang seimbang dapat dicapai di sebagian besar situasi
    • Untuk gaya pembicara yang cepat, menyesuaikan nilai cfg_weight ke sekitar 0.3 dapat memberikan kecepatan yang lebih alami
  • Sintesis suara emosional/dramatis: menaikkan Exaggeration ke 0.7 atau lebih dan menurunkan cfg_weight akan memperkuat efek ujaran dramatis
    • Semakin tinggi intensitas emosi (exaggeration), semakin cepat laju ujaran; menurunkan cfg_weight memungkinkan ujaran yang lebih lambat dan jelas

Bahasa yang didukung

  • Saat ini hanya mendukung bahasa Inggris

Referensi/dependensi open-source

  • Mencerminkan berbagai teknologi model suara dan bahasa terbaru seperti Cosyvoice, Real-Time-Voice-Cloning, HiFT-GAN, Llama 3, dan S3Tokenizer

Watermark Perth bawaan

  • Watermark Perth (Perceptual Threshold): menyisipkan watermark neural ke semua suara hasil generasi tanpa menurunkan kualitas audio
  • Watermark tetap bertahan meski melalui kompresi MP3, pengeditan audio, dan pemrosesan
  • Mendukung deteksi otomatis dengan akurasi mendekati 100%, pelacakan sumber asli, pencegahan pemalsuan, dan penggunaan AI yang bertanggung jawab

Contoh ekstraksi watermark

  • Dapat memverifikasi keberadaan watermark tersebut melalui skrip terpisah
  • Dengan memanfaatkan paket Python perth dan librosa, nilai watermark (0 atau 1) dapat diekstrak dari audio

Komunitas

  • Tersedia komunitas Discord resmi, dan siapa pun dapat bergabung serta berkolaborasi

Penafian

  • Model ini dilarang untuk penggunaan berbahaya, dan prompt hanya memanfaatkan data yang dipublikasikan secara terbuka di internet

1 komentar

 
GN⁺ 2025-06-12
Opini Hacker News
  • Terlihat ada pemberitahuan bahwa semua file audio yang dihasilkan dengan Chatterbox menyertakan watermark Perth (Perceptual Threshold) milik Resemble AI
    Mereka mengiklankannya sebagai imperceptible neural watermarks yang tetap bertahan terhadap kompresi MP3, penyuntingan audio, dan berbagai modifikasi, sambil mengklaim akurasi deteksi mendekati 100%
    Tapi jadi muncul pertanyaan, bukankah watermark ini bisa dengan mudah dinonaktifkan hanya dengan memberi komentar pada pemanggilan fungsi apply_watermark di tts.py
    Rasanya watermark seperti ini seharusnya disembunyikan di dalam model itu sendiri agar tidak mudah dihapus
    Kalau watermark pada model open source hanya ditambahkan sebagai tahap pascaproses terpisah, jadi bertanya-tanya untuk apa repot-repot menambahkannya
  • Dugaan saya ini semacam gestur CYA (Cover Your Ass, melindungi diri sendiri)
    Mirip seperti Stable Diffusion original yang juga punya content filter
    Bisa juga ada niat mencegah tercampurnya data training
  • Bahkan parser-nya juga punya flag --no-watermark
    Pada akhirnya sepertinya ini dimasukkan sebagai semacam “fitur” untuk pengguna yang ingin menyertakannya dalam produk yang lebih besar
  • Perusahaan selain OpenAI, Google, dan ElevenLabs akan jadi sepenuhnya tidak relevan kalau tidak serius melakukan open source
    Pemimpin pasar TTS sudah cukup jelas, dan Resemble, PlayHT, dan lainnya perlu membuka bobot model dan source code kepada developer agar bisa merebut pangsa pasar walau sedikit
    Watermarking ini bersifat CYA untuk merespons kritik soal penyalahgunaan media
    Kalau tidak ada hal seperti ini, media dan kubu anti-AI (seperti 404Media) akan mengangkat isu penyalahgunaan
    Membuka source, weights, dan menyediakan opsi API/fine-tuning terpisah adalah arah yang benar
    Sebagai referensi, artikel 404Media
  • Halaman demo ada di sini
    Kalau audio demonya bukan contoh yang terlalu dipilih-pilih, menurut saya ini rilisan yang sangat bagus
    Seperti yang selalu saya katakan, dari berbagai eksperimen saya terus merasa bahwa untuk voice AI, batas utamanya justru ada di speech recognition (transkripsi), bukan kualitas TTS
    Kecuali ada perubahan baru-baru ini, itu masih tetap jadi batasannya
  • Dari pengalaman terbaru, LLM sudah cukup bagus untuk membaca dan memanfaatkan bahkan kesalahan transkripsi
    Saya belum pernah mencoba memberikan beberapa versi transkripsi atau confidence level ke LLM, tapi rasanya itu juga akan bisa dimanfaatkan dengan baik
  • Saya memang pernah memakai Speechmatics, dan kualitas transkripsinya cukup berguna
  • Kalau dicoba langsung lewat demo Huggingface, ekspresi emosinya tidak senatural itu seperti di demo halaman, dan terasa seperti contoh yang dipilih-pilih
  • Jadi penasaran apakah masalah transkripsi bisa diatasi dengan data sintetis
  • Saya justru suka sekali bahwa demo itu memasukkan kata-kata kasar secara langsung
    Menarik juga karena kalimatnya diambil dari Pulp Fiction
    Demo-demo lain biasanya selalu terlalu aman dan membosankan
    Di komunitas TTS indie, Navy Seals copypasta sering dipakai, tapi perusahaan layanan seperti Resemble memasukkan kalimat seperti ini terasa segar
    Wiki Copypasta, contoh Navy Seal copypasta
  • Bisa dicoba gratis di sini
  • Seru juga memakainya
    Saat saya memasukkan aksen Australia saya, hasilnya keluar jadi sangat British, bahkan pelafalan RP yang sangat halus
    Terdengar sangat natural, tapi jelas tidak terasa seperti meniru aksen saya
    Untuk penggunaan nyata, yang penting sering kali adalah suara yang jelas dan natural, jadi untuk kebutuhan seperti itu ini sangat cocok
  • Sayangnya kode training atau fine-tuning tidak dirilis, jadi belum sampai tingkat “benar-benar terbuka” seperti Flux atau Stable Diffusion
    Di antara model “open” yang lebih baik ada
    • Zeroshot TTS: MaskGCT, MegaTTS3
    • Zeroshot VC: Seed-VC, MegaTTS3
      Dalam praktiknya hanya Seed-VC yang punya kode training/fine-tuning, tapi semuanya punya performa zero-shot lebih baik daripada Chatterbox
      Khususnya MegaTTS3 dari ByteDance, selain ElevenLabs rasanya tidak ada perusahaan lain yang benar-benar bisa menyainginya
      ByteDance unggul telak dalam uang, tenaga kerja, dan data
      Kalau tujuan Anda adalah reproduksi suara zero-shot tanpa fine-tuning, model-model ini adalah pilihan yang lebih baik
  • Contoh implementasi deployment TTS API siap produksi juga dirilis sebagai open source
    Tautan ke model yang bisa dideploy juga disertakan
  • Ada juga contoh kode inferensi dan voice cloning
    Disebutkan bahwa dukungan streaming masih sedang dikerjakan
  • Menurut saya ini bekerja sangat baik untuk aksen yang benar-benar umum
    Tapi pada aksen yang ternyata cukup umum pun, aksen lain tetap ikut terbawa keluar, misalnya rekaman Skotlandia malah terdengar beraksen Australia
    Aksen Yorkshire juga salah ditangkap
  • Saat saya memasukkan aksen Skotlandia, bahkan aksen Australia saya sendiri berubah jadi RP British
  • Ada pendapat bahwa masalahnya lebih ada pada karakteristik aksen Skotlandia daripada modelnya
  • Rasanya seperti aktor yang sedang meniru aksen British
  • Ada yang bertanya soal spesifikasi hardware, apakah bisa jalan di spesifikasi minimum
  • Menurut halaman issue di GitHub, optimisasinya memang masih belum bagus
    Jadi dalam kondisi default, dibutuhkan hardware konsumen dengan spesifikasi yang cukup tinggi
    Tapi menurut saya ruang untuk optimasi ke depan masih besar
    Tautan issue
  • Berdasarkan issue ini, dibutuhkan 6~7GB VRAM
    Kalau modelnya memang cukup bernilai, kemungkinan akan ada yang menemukan cara menjalankannya dengan VRAM lebih kecil
    Saya sendiri mencobanya di Nvidia 2060 lawas, dan puncak VRAM-nya sekitar 5GB
  • Pertanyaan seperti ini sama sekali bukan pertanyaan sepele, malah justru pertanyaan terbaik
    Memang bisa dijalankan gratis, tapi biaya nyata bisa membuat self-hosting jadi tidak lagi masuk akal
  • Saya juga sempat penasaran soal yang sama lalu mencari tahu
    Apakah butuh GPU mahal, atau justru bisa jalan di laptop berusia 12 tahun
  • Saya tadinya ingin berbagi pengalaman menjalankannya di CPU lawas, tapi selama lebih dari 30 menit hanya berkutat dengan instalasi dan error
    Masalah yang saya alami:
    • Python 3.13 belum didukung dan harus menyiapkan ulang virtual environment 3.12 dengan uv
    • numpy 1.26.4 tidak dikenali, dan uv pip hanya mencari ke repositori pytorch
    • Versi pip install chatterbox-tts bug di mode CPU only
    • Versi main default membutuhkan protobuf-compiler di Debian
    • Error CMake yang tidak jelas, mengeluh soal Python dev headers yang tidak ada
      Rasanya melelahkan karena setiap kali mencoba menjalankan proyek Python milik orang lain, perjuangan seperti ini terulang terus
  • Ekspresi emosi yang berlebihan itu menarik, tapi saya masih belum menemukan layanan yang bisa “memahat” warna suara yang diinginkan hanya lewat deskripsi teks seperti Elevenlabs
    SparkTTS memberi parameter yang agak lebih banyak, dan dari kode GitHub-nya juga terlihat ada kemungkinan kontrol emosi yang lebih halus
    Dalam kasus saya, dengan memanipulasi prosody dan tonality secara berlebihan di teks, saya pernah bisa mendekati konsep yang diinginkan pada beberapa model
    Meski begitu, tetap jauh lebih merepotkan dibanding desain emosi yang intuitif di Elevenlabs
  • Kesan setelah menguji demo langsung dengan sebagian suara saya sendiri
    • Output-nya memang agak mengikuti nuansa suara saya, tapi tidak sampai sangat mirip
      Tetap saja cukup mengejutkan bahwa dengan sampel sesingkat itu hasilnya bisa sejauh ini
    • Sedikit saja menaikkan nilai CFG/pace, audio langsung rusak sampai sulit dipahami
    • Aksen saya Australia, tapi output-nya campur aduk antara British dan Amerika
    • Ekspresi emosi yang berlebihan itu seru, tapi emosi apa yang keluar berbeda-beda tiap kali
  • Jadi penasaran apakah model TTS seperti ini sudah cukup meyakinkan untuk membacakan buku, atau setelah beberapa paragraf konsistensi suaranya mulai rusak
  • Kebanyakan sistem TTS memang kualitasnya turun pada teks panjang, jadi dalam praktiknya lebih baik dibacakan per paragraf lalu digabung kembali
    Selain itu, kalau gelombang sampel one-shot bercampur noise, Chatterbox kadang memberi bonus suara aneh tak dikenal di bagian akhir
    Terutama saat membaca karya seperti Divine Comedy, jadi terasa seperti pengalaman “suara neraka”
  • Kalau suatu saat kualitasnya sudah cukup bagus, sepertinya Audible akan dipenuhi audiobook narasi AI
    (Yang jadi pertanyaan hanya apakah Amazon akan mengungkapkan fakta itu)
  • Saya pernah langsung membuat satu buku epub menjadi audiobook, dan hasil dari alat ini ternyata tidak buruk sama sekali
    tool konversi audiobook audiblez
  • Saya sedang memberi konsultasi ke perusahaan di bidang ini, dan saya bisa bilang dengan pasti bahwa dengan teknologi saat ini, pembacaan buku sama sekali bukan masalah
  • Setahun lalu saya iseng membuat sintesis audiobook terapi Carl Rogers dengan gaya Attenbrough untuk seorang teman, dan bahkan saat itu pun kualitasnya sudah cukup hebat
    Sekarang setelah setahun berlalu, jelas kualitasnya pasti lebih baik