- Chatterbox adalah model TTS (sintesis suara) open-source terbaru yang dirilis oleh Resemble AI
- Dalam evaluasi perbandingan dengan pesaingnya, ElevenLabs, model ini secara konsisten menunjukkan hasil yang lebih disukai
- Dilengkapi fitur unik seperti kontrol exaggeration emosi, sehingga memungkinkan beragam ekspresi suara
- Dilatih dengan backbone Llama berparameter 0.5B dan data terkurasi selama 0.5 juta jam
- Semua suara hasil generasi dilengkapi watermark Perth bawaan untuk membantu mencegah penggunaan tanpa izin dan pemalsuan
Pengenalan dan pentingnya Chatterbox TTS
- Chatterbox adalah model TTS (text-to-speech) open-source kelas production yang dikembangkan oleh Resemble AI
- Menggunakan lisensi MIT sehingga dapat dimanfaatkan secara bebas, dan hasil yang dipublikasikan menunjukkan kualitas unggul bahkan dibanding model komersial closed-source (misalnya ElevenLabs)
- Dapat diterapkan secara luas untuk pembuatan konten seperti video, meme, game, dan agen AI, serta menjadi TTS open-source pertama yang menyediakan fitur kontrol exaggeration emosi
- Dapat dicoba dan digunakan langsung melalui aplikasi Hugging Face Gradio atau API sendiri, dan untuk skala besar atau kebutuhan akurasi tinggi tersedia API komersial (ultra-low latency di bawah 200ms)
Fitur utama
- TTS zero-shot mutakhir: dapat mengekspresikan berbagai gaya pembicara tanpa data tambahan
- Backbone Llama 0.5B: mengadopsi struktur large language model ke sintesis suara
- Pengaturan exaggeration/intensitas emosi: menyediakan fitur untuk mengontrol secara rinci intensitas karakter dan emosi tiap pembicara
- Alignment-informed inference: memanfaatkan informasi penyelarasan fonem dan audio untuk mewujudkan kualitas generasi yang sangat stabil
- 0.5 juta jam data terkurasi: dilatih menggunakan dataset suara berskala besar dan berkualitas tinggi
- Watermark bawaan: menggunakan watermark Perth (Perceptual Threshold) dari Resemble AI untuk pelacakan hasil generasi dan pencegahan penggunaan tanpa izin
- Skrip konversi suara: dilengkapi fitur voice conversion yang mudah digunakan
- Verifikasi performa: memperoleh hasil evaluasi lebih unggul dibanding ElevenLabs
Tips penggunaan
- TTS umum/agen suara: dengan nilai default (Exaggeration=0.5, cfg_weight=0.5), kualitas yang seimbang dapat dicapai di sebagian besar situasi
- Untuk gaya pembicara yang cepat, menyesuaikan nilai cfg_weight ke sekitar 0.3 dapat memberikan kecepatan yang lebih alami
- Sintesis suara emosional/dramatis: menaikkan Exaggeration ke 0.7 atau lebih dan menurunkan cfg_weight akan memperkuat efek ujaran dramatis
- Semakin tinggi intensitas emosi (exaggeration), semakin cepat laju ujaran; menurunkan cfg_weight memungkinkan ujaran yang lebih lambat dan jelas
Bahasa yang didukung
- Saat ini hanya mendukung bahasa Inggris
Referensi/dependensi open-source
- Mencerminkan berbagai teknologi model suara dan bahasa terbaru seperti Cosyvoice, Real-Time-Voice-Cloning, HiFT-GAN, Llama 3, dan S3Tokenizer
Watermark Perth bawaan
- Watermark Perth (Perceptual Threshold): menyisipkan watermark neural ke semua suara hasil generasi tanpa menurunkan kualitas audio
- Watermark tetap bertahan meski melalui kompresi MP3, pengeditan audio, dan pemrosesan
- Mendukung deteksi otomatis dengan akurasi mendekati 100%, pelacakan sumber asli, pencegahan pemalsuan, dan penggunaan AI yang bertanggung jawab
Contoh ekstraksi watermark
- Dapat memverifikasi keberadaan watermark tersebut melalui skrip terpisah
- Dengan memanfaatkan paket Python
perth dan librosa, nilai watermark (0 atau 1) dapat diekstrak dari audio
Komunitas
- Tersedia komunitas Discord resmi, dan siapa pun dapat bergabung serta berkolaborasi
Penafian
- Model ini dilarang untuk penggunaan berbahaya, dan prompt hanya memanfaatkan data yang dipublikasikan secara terbuka di internet
1 komentar
Opini Hacker News
Mereka mengiklankannya sebagai
imperceptible neural watermarksyang tetap bertahan terhadap kompresi MP3, penyuntingan audio, dan berbagai modifikasi, sambil mengklaim akurasi deteksi mendekati 100%Tapi jadi muncul pertanyaan, bukankah watermark ini bisa dengan mudah dinonaktifkan hanya dengan memberi komentar pada pemanggilan fungsi
apply_watermarkditts.pyRasanya watermark seperti ini seharusnya disembunyikan di dalam model itu sendiri agar tidak mudah dihapus
Kalau watermark pada model open source hanya ditambahkan sebagai tahap pascaproses terpisah, jadi bertanya-tanya untuk apa repot-repot menambahkannya
Mirip seperti Stable Diffusion original yang juga punya content filter
Bisa juga ada niat mencegah tercampurnya data training
--no-watermarkPada akhirnya sepertinya ini dimasukkan sebagai semacam “fitur” untuk pengguna yang ingin menyertakannya dalam produk yang lebih besar
Pemimpin pasar TTS sudah cukup jelas, dan Resemble, PlayHT, dan lainnya perlu membuka bobot model dan source code kepada developer agar bisa merebut pangsa pasar walau sedikit
Watermarking ini bersifat CYA untuk merespons kritik soal penyalahgunaan media
Kalau tidak ada hal seperti ini, media dan kubu anti-AI (seperti 404Media) akan mengangkat isu penyalahgunaan
Membuka source, weights, dan menyediakan opsi API/fine-tuning terpisah adalah arah yang benar
Sebagai referensi, artikel 404Media
Kalau audio demonya bukan contoh yang terlalu dipilih-pilih, menurut saya ini rilisan yang sangat bagus
Seperti yang selalu saya katakan, dari berbagai eksperimen saya terus merasa bahwa untuk voice AI, batas utamanya justru ada di speech recognition (transkripsi), bukan kualitas TTS
Kecuali ada perubahan baru-baru ini, itu masih tetap jadi batasannya
Saya belum pernah mencoba memberikan beberapa versi transkripsi atau confidence level ke LLM, tapi rasanya itu juga akan bisa dimanfaatkan dengan baik
Menarik juga karena kalimatnya diambil dari Pulp Fiction
Demo-demo lain biasanya selalu terlalu aman dan membosankan
Di komunitas TTS indie, Navy Seals copypasta sering dipakai, tapi perusahaan layanan seperti Resemble memasukkan kalimat seperti ini terasa segar
Wiki Copypasta, contoh Navy Seal copypasta
Saat saya memasukkan aksen Australia saya, hasilnya keluar jadi sangat British, bahkan pelafalan RP yang sangat halus
Terdengar sangat natural, tapi jelas tidak terasa seperti meniru aksen saya
Untuk penggunaan nyata, yang penting sering kali adalah suara yang jelas dan natural, jadi untuk kebutuhan seperti itu ini sangat cocok
Di antara model “open” yang lebih baik ada
Dalam praktiknya hanya Seed-VC yang punya kode training/fine-tuning, tapi semuanya punya performa zero-shot lebih baik daripada Chatterbox
Khususnya MegaTTS3 dari ByteDance, selain ElevenLabs rasanya tidak ada perusahaan lain yang benar-benar bisa menyainginya
ByteDance unggul telak dalam uang, tenaga kerja, dan data
Kalau tujuan Anda adalah reproduksi suara zero-shot tanpa fine-tuning, model-model ini adalah pilihan yang lebih baik
Tautan ke model yang bisa dideploy juga disertakan
Disebutkan bahwa dukungan streaming masih sedang dikerjakan
Tapi pada aksen yang ternyata cukup umum pun, aksen lain tetap ikut terbawa keluar, misalnya rekaman Skotlandia malah terdengar beraksen Australia
Aksen Yorkshire juga salah ditangkap
Jadi dalam kondisi default, dibutuhkan hardware konsumen dengan spesifikasi yang cukup tinggi
Tapi menurut saya ruang untuk optimasi ke depan masih besar
Tautan issue
Kalau modelnya memang cukup bernilai, kemungkinan akan ada yang menemukan cara menjalankannya dengan VRAM lebih kecil
Saya sendiri mencobanya di Nvidia 2060 lawas, dan puncak VRAM-nya sekitar 5GB
Memang bisa dijalankan gratis, tapi biaya nyata bisa membuat self-hosting jadi tidak lagi masuk akal
Apakah butuh GPU mahal, atau justru bisa jalan di laptop berusia 12 tahun
Masalah yang saya alami:
uv piphanya mencari ke repositori pytorchpip install chatterbox-ttsbug di mode CPU onlymaindefault membutuhkanprotobuf-compilerdi DebianRasanya melelahkan karena setiap kali mencoba menjalankan proyek Python milik orang lain, perjuangan seperti ini terulang terus
SparkTTS memberi parameter yang agak lebih banyak, dan dari kode GitHub-nya juga terlihat ada kemungkinan kontrol emosi yang lebih halus
Dalam kasus saya, dengan memanipulasi prosody dan tonality secara berlebihan di teks, saya pernah bisa mendekati konsep yang diinginkan pada beberapa model
Meski begitu, tetap jauh lebih merepotkan dibanding desain emosi yang intuitif di Elevenlabs
Tetap saja cukup mengejutkan bahwa dengan sampel sesingkat itu hasilnya bisa sejauh ini
Selain itu, kalau gelombang sampel one-shot bercampur noise, Chatterbox kadang memberi bonus suara aneh tak dikenal di bagian akhir
Terutama saat membaca karya seperti Divine Comedy, jadi terasa seperti pengalaman “suara neraka”
(Yang jadi pertanyaan hanya apakah Amazon akan mengungkapkan fakta itu)
tool konversi audiobook audiblez
Sekarang setelah setahun berlalu, jelas kualitasnya pasti lebih baik