Pocket TTS: TTS berkualitas tinggi yang menghadirkan suara di CPU

(kyutai.org)

18 poin oleh GN⁺ 2026-01-16 | 4 komentar | Bagikan ke WhatsApp

Pocket TTS dengan 100 juta parameter adalah model text-to-speech ringan dengan kemampuan voice cloning, yang dapat berjalan secara real-time bahkan di CPU laptop biasa
Menjembatani kesenjangan performa antara TTS berbasis LLM besar (lebih dari 1 miliar parameter) dan Kokoro TTS kecil (82 juta parameter), sambil mencapai kualitas tinggi dan efisiensi sekaligus
Hanya dengan sekitar sampel suara 5 detik, model ini dapat mereplikasi warna suara, emosi, intonasi, dan kondisi akustik pembicara secara akurat
Menggunakan arsitektur berbasis Continuous Audio Language Model untuk langsung memprediksi vektor laten kontinu alih-alih token diskret, sehingga ukuran model dapat diperkecil tanpa penurunan kualitas
Dirilis sebagai open source berlisensi MIT, menetapkan standar baru teknologi TTS ringan yang memungkinkan sintesis suara berkualitas tinggi di lingkungan CPU

Gambaran Umum Pocket TTS

Pocket TTS adalah model text-to-speech dengan 100 juta parameter yang mendukung voice cloning
- Dapat berjalan secara real-time bahkan di CPU laptop
- Bisa dijalankan secara lokal dengan perintah uvx pocket-tts serve atau uvx pocket-tts generate
Dikembangkan oleh Kyutai dan dirilis sebagai open source dengan lisensi MIT
- Data pelatihan hanya menggunakan dataset suara bahasa Inggris publik
- Disebutkan juga kemungkinan ekspansi ke data nonpublik tambahan

Perbandingan dengan model TTS yang ada

Teknologi TTS saat ini terbagi menjadi dua kategori
- Model besar berbasis LLM: misalnya Kyutai TTS 1.6B (sekitar 1,6 miliar parameter)
  - Dapat memodelkan beragam suara, emosi, dan kondisi akustik, tetapi memerlukan GPU
- Model kecil yang terspesialisasi: misalnya Kokoro TTS (82 juta parameter)
  - Efisien karena menggunakan set suara tetap dan pipeline buatan tangan, tetapi fleksibilitasnya terbatas
Pocket TTS menempati titik tengah di antara dua pendekatan ini, dan memungkinkan sintesis suara berkualitas tinggi di CPU

Evaluasi performa

Dievaluasi menggunakan set Librispeech test-clean
- Input audio dibersihkan dengan Adobe Enhance Speech untuk mendapatkan kualitas 24kHz
Pembanding: F5-TTS, DSM, Chatterbox Turbo, Kokoro TTS
Metrik evaluasi:
- Word Error Rate (WER)
- Kualitas audio (ELO)
- Kemiripan pembicara (ELO)
Ringkasan hasil:
- Pocket TTS mencatat WER 1.84, tingkat kesalahan terendah
- Kualitas audio lebih baik daripada F5-TTS dan DSM
- Kemiripan pembicara setara dengan suara referensi
- Satu-satunya model yang dapat berjalan lebih cepat dari real-time di CPU

Model	Jumlah parameter	WER ↓	Kualitas audio (ELO) ↑	Kemiripan pembicara (ELO) ↑	Real-time di CPU
F5-TTS	336M	2.21	1949 ± 27	1946 ± 26	✗
Kyutai TTS 1.6B	750M	1.84	1959 ± 25	2037 ± 21	✗
Chatterbox Turbo	350M	3.24	2055 ± 23	2012 ± 22	✗
Kokoro	82M	1.93	tidak ada voice cloning	tidak ada voice cloning	✓
Pocket TTS	100M	1.84	2016 ± 25	1898 ± 26	✓

Saat diuji pada CPU Intel Core Ultra 7 165H dan Apple M3, hanya Pocket TTS dan Kokoro yang mampu melakukan sintesis real-time

Arsitektur

Pocket TTS dirancang berdasarkan riset Continuous Audio Language Model
- Pendekatan lama memprediksi token audio diskret, sedangkan Pocket TTS langsung memprediksi vektor laten kontinu (latent)
- Dengan ini, model menghilangkan bottleneck RQ-transformer dan sekaligus mencapai model yang lebih ringan

Neural Audio Codec

Dirancang berbasis codec Mimi
- Mimi mengompresi ke token diskret, tetapi Pocket TTS menggunakan representasi laten kontinu
- Menerapkan pelatihan VAE yang dinormalisasi dengan distribusi normal
- Melakukan distillation representasi internal dari WavLM dengan cosine similarity loss
- Menghapus tahap RVQ dan menerapkan distillation loss ke seluruh representasi laten

Generative Model

Berbasis framework Masked Autoregressive(MAR)
- Terdiri dari backbone Causal Transformer dan MLP sampler
- Menggunakan loss Lagrangian Self-Distillation(LSD) untuk mewujudkan 1-step sampling
- Saat inferensi, vektor laten yang diprediksi diumpankan balik secara autoregresif

Kondisioning suara dan teks

Input model menggabungkan prompt suara (beberapa detik) dan teks
- Suara di-embed dengan codec encoder, teks di-embed dengan SentencePiece tokenizer

Komposisi ukuran model

Model generatif (Transformer + MLP) : 90 juta parameter
Codec decoder: 10 juta parameter
Codec encoder: 18 juta parameter (hanya digunakan sekali saat mengenkode sampel suara)

Data pelatihan

Seluruhnya terdiri dari dataset suara bahasa Inggris publik, total 88.000 jam
- AMI, EARNINGS22, GIGASpeech, SPGISpeech, TED-LIUM, VoxPopuli, LibriHeavy, Emilia

Kontribusi teknis utama

Head Batch Multiplier

Vektor z digunakan ulang beberapa kali untuk mengurangi bottleneck komputasi Transformer
- Untuk setiap urutan input, z dihitung sekali lalu digunakan kembali untuk 8 kali perhitungan loss
- Memberikan efek peningkatan efisiensi dan stabilisasi pelatihan

Gaussian Temperature Sampling

Menerapkan pengaturan temperature sampling bahkan di ruang kontinu
- Mengurangi varians noise Gaussian untuk meningkatkan kualitas
- Hasil yang baik dikonfirmasi pada temperature 0.7

Latent Classifier-Free Guidance (Latent CFG)

Menerapkan CFG konvensional pada tingkat variabel laten (z)
- Menggabungkan output kondisional dan tanpa kondisi secara linear untuk meningkatkan kualitas
- Menggunakan α=1.5
- Konsep serupa juga muncul dalam riset SoundReactor

Distillation

Menggunakan model CFG sebagai teacher model untuk melakukan distillation ke student model ringan
- Head MLP pada teacher model dibekukan, dan student model mempelajari z dengan loss L2
- Memungkinkan penyusutan dari teacher model 24 layer → student model 6 layer

Kesimpulan

Pocket TTS adalah model TTS ringan yang memungkinkan sintesis suara berkualitas tinggi secara real-time di CPU
Menggabungkan arsitektur berbasis ruang laten kontinu, teknik pelatihan yang efisien, dan fitur voice cloning
Dirilis sebagai open source berlisensi MIT, memberikan reproducibility dan extensibility bagi pengembang dan peneliti

4 komentar

xguru 2026-01-16

Sepertinya model TTS open source yang mendukung bahasa Korea tidak terlalu terlihat.
Saya pernah dengar Kokoro-82M yang dirilis sebelumnya memang disebut mendukung bahasa Korea, tapi kualitasnya katanya tidak terlalu bagus,
dan setelah saya cari sebentar, ada juga yang bilang hasilnya lumayan kalau dibuat dengan GPT-Sovits atau memakai yang seperti Edge-TTS.

Akhir-akhir ini sambil vibe coding, rasanya kalau digabungkan dengan Whisper bisa menghasilkan sesuatu yang menarik, tapi saya belum kepikiran idenya haha

ng0301 2026-01-18

Baru-baru ini Supertonic merilis model yang bahkan mendukung bahasa Korea, coba cari tahu deh.

Saya juga sempat membuat library sekali klik!

https://www.npmjs.com/package/easy-supertonic-tts

bichi 2026-01-19

Keren, tapi akan lebih bagus kalau saat membuatnya juga disertakan alamat resource targetnya. Soalnya tidak bisa asal instal begitu saja, haha.

GN⁺ 2026-01-16

Pendapat Hacker News

Saya sangat senang tulisan saya mendapat perhatian sebesar ini
Saya adalah bagian dari tim di Paris yang mengembangkan solusi suara tingkat enterprise berbasis riset Kyutai
Jika ada yang sedang membangun sesuatu di bidang ini, saya ingin berbagi model dan fitur yang akan datang
Silakan hubungi saya lewat email di profil saya
- Kerja yang luar biasa. Menurut saya ini adalah pencapaian yang mendorong batas hingga bisa berjalan secara lokal bahkan di perangkat sehari-hari
Saat membaca studi kasus yang panjang, saya sadar saya butuh ekstensi browser, jadi saya membuat antarmuka browser sendiri
Hasilnya adalah Pocket Reader
Ini menarik, jadi saya langsung membuatnya menjadi server MCP agar Claude bisa memberi tahu saat tugas selesai
speak_when_done
- Di macOS sudah ada fitur TTS bawaan yang cukup natural
  Saya juga pernah membuat alat serupa dengan menjalankan perintah say sebagai proses latar belakang, tetapi sulit untuk mengatur suara yang bagus secara konsisten
  Sepertinya suara yang natural itu tersembunyi di suatu tempat
- Saya juga baru-baru ini membuat sesuatu yang mirip dengan piper-tts
  speak-mcp
- Karena alasan yang sama, saya juga menyiapkan Pushover agar menerima notifikasi di ponsel
  Sekarang saya juga akan mencoba server Anda
Kali ini kualitas kodenya benar-benar bagus
Biasanya codebase model-model baru penuh dengan tumpukan dependensi yang tidak perlu, tetapi kali ini juga sangat baik dari sisi rekayasa perangkat lunak
Terima kasih sudah berbagi! Saya adalah penggemar Kokoro, jadi saya membangun asisten suara lokal sendiri
proyek ova
Saya pasti akan mencoba Pocket TTS juga
- Saya merasa performa TTS Kokoro jauh lebih baik
  Hanya saja Pocket TTS tertutup, jadi saya tidak bisa memeriksa fitur kloning suara
- Repositorinya keren! Saya juga akan mencobanya
  Saya penasaran apakah ini berbasis mlx atau berbasis Hugging Face transformers
Saya penasaran apakah proyek ini bisa didistribusikan sebagai biner statis kecil
Saat ini dependensinya cukup besar
- Isu terkait bisa dilacak di sini
Saya sangat menyukainya
Hanya saja tertulis lisensi MIT, tetapi ada bagian Penggunaan yang Dilarang (Prohibited Use) terpisah di README, jadi saya bingung apakah ini menjadi perangkat lunak non-bebas
- Menurut pemahaman saya, kodenya MIT, tetapi modelnya memakai lisensi terpisah
  Seperti gambar atau suara, model ML mungkin tidak dianggap sebagai perangkat lunak
  Kartu model Hugging Face juga memiliki klausul larangan yang sama
- Lisensi MIT memiliki kalimat bahwa ini bisa “digunakan tanpa batasan”
  Jadi, butir larangan di README itu kemungkinan bertentangan secara hukum
- Klausul larangan itu hanya di level “jangan dipakai untuk kejahatan”, jadi efek hukumnya tampaknya kecil
- Jika “boleh digunakan, tetapi tidak untuk tujuan seperti ini”, maka tidak jelas apakah itu benar-benar pelanggaran lisensi
- Klausul larangan itu terasa seperti hiasan formalitas yang tidak perlu
Saya mencoba menjalankan uvx pocket-tts serve di M1 Mac
Untuk pengujian, saya menyuruhnya membaca paragraf pertama A Tale of Two Cities, tetapi suara Javert punya masalah melewatkan kalimat di tengah-tengah
Misalnya, frasa seperti “it was the age of foolishness” dihilangkan
Ini mengurangi kepercayaan
Isu terkait saya laporkan di sini
- Dalam pengujian saya juga, bagian “we had everything before us” terlewat. Ini jelas bukan pertanda baik
- Saya juga melihat hal yang sama. Ada distorsi output seperti melewatkan kalimat atau menukar urutan kata (Win10 RTX 5070 Ti)
- Dengan suara Eponine juga, “we had nothing before us” terlewat dan kalimat terakhir tidak dibacakan. Sepertinya ada sesuatu yang salah secara internal
Saya belum banyak menggunakan model suara selama ini, tetapi lewat Pocket TTS saya jadi tahu tentang unmute.sh
Ini open source dan tampaknya dibuat oleh perusahaan yang sama
Model-model ini terlihat cukup bisa dipakai di lingkungan homelab dengan biaya rendah
Model open source kini sudah naik level secara umum, jadi hampir selalu ada yang cocok untuk setiap kebutuhan
Bidang yang tampaknya masih punya hambatan masuk nyata hanyalah model coding
Menarik juga apakah Deepseek 4 bisa mengalahkan Claude Sonnet
Saya mengintegrasikannya ke plugin Codex saya agar membacakan ringkasan di akhir setiap giliran, dan hasilnya bekerja sangat baik
Di MacBook saya, ini berjalan jauh lebih mulus daripada Samantha
agentify-sh/speak