- Neural Audio Codec adalah alat kunci untuk memasukkan data audio ke Large Language Model (LLM) secara efektif
- Antarmuka suara LLM sebelumnya umumnya adalah wrapper berbasis teks, sehingga ada batasan dalam pemahaman suara nyata dan pengenalan emosi
- Pemodelan audio, berbeda dengan teks, memiliki jumlah sampel yang sangat banyak dan sulit mempertahankan konsistensi jangka panjang, sehingga dibutuhkan kompresi dan tokenisasi yang efisien
- Dengan teknik codec audio neural terbaru seperti Residual Vector Quantization(RVQ), audio diubah menjadi token diskrit yang ramah LLM untuk diproses
- Dengan menerapkan codec audio neural mutakhir seperti Mimi dari Kyutai, ekspresi dan kualitas audio LLM semakin meningkat
Latar belakang adopsi neural audio codec dan LLM audio
- Sebagian besar model suara berbasis LLM pada dasarnya tidak memahami audio secara langsung, melainkan mengikuti alur mengubah ke teks → merespons → mensintesis
- Pada pemahaman suara nyata, pemahaman emosi, intonasi, sarkasme, dan nuansa non-verbal menjadi wajib
- Beberapa model (Gemini, ChatGPT Advanced Voice Mode, Qwen, Moshi) mendukung input suara, tetapi secara praktis masih kurang kemampuan pemahaman suara yang mendalam
- LLM teks berkembang cepat ketika data, algoritme, dan sumber daya komputasi ditingkatkan, tetapi pemrosesan data audio memiliki tingkat kesulitan yang jauh lebih tinggi
Perbedaan pendekatan tokenisasi teks dan audio
- Teks dapat menghasilkan kinerja baik walau memakai tokenizer tetap yang relatif sederhana seperti byte-pair encoding
- Bahkan LSTM atau RNN awal pun dapat memperoleh hasil yang memadai hanya dengan prediksi karakter per sampel tunggal
- Audio memerlukan prediksi deret waktu hingga puluhan ribu poin pada durasi 10 detik, karena satu detik audio berisi puluhan ribu sampel
- Pada WaveNet yang membuat audio per sampel, kualitas suara bisa bagus tetapi penyampaian makna menjadi kurang stabil
Bottleneck pemodelan audio dan keterbatasan prediksi per sampel
- Generasi per sampel secara nyata sangat lambat, dan tidak bisa menjamin keterhubungan unit makna secara konsisten
- Eksperimen contoh (151M parameter, 1000 jam data) menunjukkan rendahnya kegunaan praktis karena suara berisik dan kurang konsistensi
- Tingginya sampling rate audio (menggunakan acuan 16kHz, 2048 konteks = 128ms) menimbulkan batas penanganan konteks LLM
- Untuk pemrosesan audio secara real-time, kompresi yang efektif bersifat wajib
Neural Audio Codec: Autoencoder dan RVQ
Prinsip Dasar Autoencoder dan Vector Quantization (VQ-VAE)
- Jaringan saraf ini menekan input (audio, gambar, dll.) ke ruang laten (latent space) yang lebih kecil lalu merekonstruksi kembali
- Embedding didesain menjadi token diskrit melalui vektor kuantisasi (misalnya k-means) agar dapat dimasukkan ke LLM
- Menggunakan teknik Straight-through estimator untuk melatih properti non-diferensiasi secara tidak langsung
- Menambahkan commitment loss untuk meminimalkan jarak antara embedding dan pusat klaster
- Struktur model VQ-VAE adalah bentuk autoencoder yang berevolusi agar lebih bersahabat dengan kuantisasi
Konsep Residual Vector Quantization (RVQ)
- Saat dibutuhkan banyak level kuantisasi, RVQ memperkenalkan tingkat token residual untuk mengatasi batasan pengelolaan klaster tunggal yang besar
- Pertama mengkuantisasi embedding awal, lalu mengkuantisasi tambahan residu secara berurutan, sehingga kompresi lebih maksimal
- Jika perlu, kuantisasi multi-level lebih dari 2 level dapat dilakukan; ekspansi struktur tetap sederhana dengan urutan
for level in range(levels)
- RVQ diterapkan sebagai komponen inti pada codec audio neural mutakhir seperti SoundStream (2021)
Tokenisasi audio dan aplikasi ke LLM
- Setelah audio didownsample oleh autoencoder berbasis CNN (contoh: 128x downsampling, vektor 32 dimensi), dilakukan kuantisasi RVQ independen pada setiap embedding
- Keluaran code RVQ (contoh: RVQ 8-level) langsung direntangkan secara berurutan menjadi urutan token 1D untuk dijadikan input LLM
- Pada skema flattening, terjadi kehilangan sebagian kompresi temporal (contoh: downsampling 128x kemudian ekspansi lagi menjadi 8x)
- Tingkat codebook, jumlah level, serta urutan FLATTEN masing-masing memengaruhi kualitas dan rasio kompresi
Pelatihan codec audio neural dan peningkatan kualitas
- Hasil eksperimen menunjukkan bahwa makin banyak level RVQ, reconstruction loss menurun dan kualitas suara meningkat
- Namun, meski codec sederhana buatan sendiri, kualitasnya masih menyisakan sedikit noise dan distorsi timbre
- Codec audio neural mutakhir seperti Mimi dari Kyutai meningkatkan kualitas lewat inovasi seperti loss berbasis GAN dan RVQ dropout
- Discriminator GAN dilatih untuk membedakan audio asli dan palsu
- Secara acak hanya menggunakan sebagian level RVQ (dropout), sehingga kualitas tetap terjaga di tiap level kompresi
Perubahan performa audio LLM nyata dari codec Mimi
- Mimi memungkinkan downsampling lebih agresif dan kompresi yang efisien, dengan sample rate 24kHz, 12.5fps, dan seterusnya
- Tokenisasi data Libri-Light 10k jam dengan Mimi mengurangi kebutuhan memori sekitar setengahnya, sekaligus meningkatkan efisiensi pelatihan dan kualitas
- Model menunjukkan konsistensi teks yang lebih tinggi pada generasi audio berbasis makna seperti lagu, puisi, dan lain-lain
Konsep Token Semantik (Semantic Token)
- Tingkat tertinggi Mimi adalah token semantik yang diekstrak dari BERT suara seperti WavLM
- Token semantik menangani isi ucapan, sedangkan token RVQ level bawah mengelola informasi akustik seperti timbre dan suara
- Jika token semantik dikunci dan token lain direkonstruksi ulang oleh LLM, hasilnya memungkinkan output yang menyampaikan ucapan yang sama dengan suara berbeda
Trade-off kualitas semantik dan akustik
- Semakin sedikit level RVQ, porsi token semantik meningkat sehingga tingkat kecocokan semantik naik dan kemampuan LLM menghasilkan kalimat puitis membaik
- Secara nyata, model bahkan mencapai tingkat menghafal sebagian data pelatihan, termasuk script panduan dari Librivox
- Berbagai skenario dapat dibentuk dengan menyeimbangkan bobot fungsi loss berbasis semantik versus kualitas akustik (Moshi memprioritaskan kehilangan semantik hingga 100x)
Tren model dan penelitian audio LLM terkini
- Setelah bertahun-tahun berkembang, Kyutai Moshi, Sesame CSM, dan Alibaba Qwen3-Omni memimpin riset LLM native suara
- Sebagian besar model masih mengandalkan pendekatan streaming teks paralel, dengan penalaran konteks terutama dilakukan dari sisi teks
- Riset alternatif seperti pencampuran dan pertukaran token teks-audio, serta generasi ruang laten kontinu (model difusi, konsistensi) juga berkembang aktif
Kesimpulan dan prospek
- Neural Audio Codec adalah infrastruktur inti audio LLM karena dapat menyeimbangkan tokenisasi informasi semantik dan akustik untuk meningkatkan kualitas generasi suara secara signifikan
- Namun masih ada modality gap dalam hal reasoning dan kemampuan pemahaman suara dibanding LLM teks
- Kyutai Moshi dan lainnya terus melakukan berbagai inovasi, termasuk berbagai implementasi Voice AI end-to-end pertama, sehingga perkembangan audio ML ke depan dinanti
Makalah referensi dan bacaan tambahan
- WaveNet (2016), SampleRNN (2016), MelGAN (2019), HiFi-GAN (2020): memperkenalkan sejarah dan konsep utama model generasi audio
- Neural Discrete Representation Learning, SoundStream, EnCodec, WavLM, MiMo-Audio: pengenalan penelitian aplikasi kodec dan model
- Menunjukkan kemungkinan penerapan Diffusion/Consistency model pada generasi audio kontinu
Contoh audio LLM terbaru (per 2025)
- Moshi (Kyutai)
- CSM (Sesame)
- Qwen3-Omni (Alibaba)
- MiMo-Audio (Xiaomi)
- LFM2-Audio (Liquid AI)
1 komentar
Komentar Hacker News
Ketika saya bertanya ke LLM dengan nada suara tinggi, "Apakah saya berbicara dengan suara rendah atau tinggi?", saya melihat bahwa ia tidak dapat membedakannya dengan baik. Saya penasaran apakah ini keterbatasan LLM atau akibat overfitting pada aspek keamanan. Saya juga menyebut bahwa pada mode suara ChatGPT ada banyak perlindungan, seperti pemblokiran pembuatan musik, tidak meniru aksen (misalnya tidak meniru aksen India), dan pencegahan asumsi rasial atau bias. Karena itu, saya berpikir fitur-fitur ini mungkin dihapus dari model.
Penulis mengungkapkan bahwa menurutnya fenomena ini lebih terkait keterbatasan kemampuan model daripada masalah keamanan. Belajar audio memang masih lebih sulit daripada belajar teks, jadi generalisasinya belum optimal. Untuk memperbaikinya, model audio sering memakai pendekatan yang menggabungkan informasi teks dan audio (misalnya model tunggal yang memberi serta menghasilkan token teks dan audio), sehingga token audio pada akhirnya menjadi semacam transduser suara-ke-teks. Rekan-rekan yang pernah bekerja di Moshi juga mengalami hal yang sama, dan model lain pun serupa. Ia juga menekankan pengaruh data sintetis—fine-tuning memakai data yang dihasilkan TTS membuat model kehilangan informasi pitch sehingga belajar mengabaikannya.
Terkait "accent matching" (yaitu LLM tidak berbicara dengan aksen India ketika lawan bicara beraksen India), ia mempertanyakan kenapa tidak berjalan. Ia pernah merasakan bahwa menyesuaikan aksen dengan cukup mirip secara signifikan meningkatkan pemahaman. Sering kali, kondisi di mana orang lain menyesuaikan ke aksen orang yang tidak bisa mengubahnya terasa menguntungkan. Bila ia sendiri bisa memakai aksen Inggris India, ia bilang akan sangat membantu saat berbicara dengan pusat layanan pelanggan outsourcing.
Ia bertanya apakah ada pengalaman saat LLM bereaksi berbeda menurut ras. Ia menilai mengejutkan karena kalau data latihnya sebagian besar percakapan teks, dasar untuk mempelajari bias semacam itu seharusnya kecil.
Qwen3 omni transcriber benar-benar sangat baik dalam menjelaskan suara dan emosi.
Ia tidak yakin ini semata-mata karena fitur perlindungan; ia merasa model seolah tidak benar-benar memahami tinggi nada itu sendiri. Ketika mode suara tingkat lanjut ChatGPT diminta mengenali humming, modelnya terus menjawab "Beethoven 5" saja. Ia menduga my humming ditokenisasi menjadi sesuatu seperti "deh-deh-deh-deh~".
Di bidang audio, konteks jarak jauh tidak terlalu krusial, jadi saya bertanya apakah model linear-space, constant-time seperti RWKV atau S4 mungkin lebih cocok. Transformernya berjalan paralel pada frekuensi rendah, dan model linear mengirim satu token ringkasan per detik (termasuk teks + emosi) untuk menerima feedback. Bila dua model ini dilatih paralel, makna token ringkasan tidak ditentukan sebelumnya, melainkan terbentuk selama proses belajar. Pendekatan ini murni end-to-end berbasis fonetik tanpa penerjemahan teks. Informasi yang tidak bermakna atau berisi data rendah dapat dipadatkan menjadi representasi token yang lebih kecil. Dalam hal logika/kode, ia tidak bisa mengejar LLM teks, tetapi manusia pun memang sulit menjelaskan algoritma secara rinci lewat percakapan bahasa alami.
Ia tidak begitu mengenal model linear, tetapi menjelaskan bahwa pemodelan hirarkis semacam ini adalah ide yang lazim di riset suara. Misalnya, OpenAI Jukebox (2020) memecah menjadi codec audio 3-level: LLM memprediksi pada level paling kasar, lalu merekonstruksi ke level lebih halus. Secara terbaru, MiMo-audio memprediksi 4 time step sekaligus sebagai satu patch. Sebagai referensi, ia membagikan tautan ke paper OpenAI Jukebox dan laporan teknis MiMo-Audio.
Ia juga menjelaskan bahwa Cartesia sedang mengembangkan model constant-time untuk audio, dengan tautan situs web mereka di sini.
Ia memberi dorongan, "Tolong tulis ini jadi paper!"
Saat membahas kenapa tidak memakai codec audio umum seperti JPEG, MP3, saya menjelaskan bahwa MP3 dapat merekonstruksi puluhan milidetik audio per frame secara independen. Pada 128kbps, 26ms memerlukan 418 byte, sehingga reduksi terhadap sumber sekitar 10–11x, dan informasi yang tidak perlu pun dihapus. Kalau memakai transducer, frame bisa digunakan sebagai token.
Ia berbagi ringkasan paper yang memakai JPEG langsung sebagai input deep learning. Jika CNN dilatih pada koefisien DCT, proses mengembalikan piksel lalu mengubahnya lagi dapat dilewati. Diterapkan di ResNet-50, kecepatannya naik hingga 1.77x dan akurasi meningkat; ia juga menyertakan tautan paper. Jadi menurutnya, MP3 pun terdengar seperti ide yang bagus.
Sebagai penulis, ia menjelaskan bahwa alasan terbesar mengapa ini tidak dipilih adalah perbedaan tingkat kompresi. SoundStream, codec audio neural awal, tetap memberi kualitas cukup baik di 3kbps, sementara MP3 sekitar 128kbps. SoundStream awalnya memang dikembangkan untuk kompresi audio Google Meet, dan codec neural masa kini makin efisien. Opus, pengganti modern MP3, bisa ke 12kbps tetapi tetap belum sesungguhnya seefisien codec audio neural. Kelebihan codec tradisionalnya adalah beban CPU lebih ringan.
Memang mungkin melatih adapter agar frame MP3 400-byte jadi embedding untuk LLM, tetapi data yang masuk ke jaringan harus punya bentuk yang mudah dicerna. Jaringan saraf menyukai data dengan redundansi tinggi (seperti teks tokenized), dan cenderung tidak menyukai data sangat terkompresi (misalnya GZIP). Akibatnya, percobaan ini mudah dicoba, tetapi hasil sukses tidak dijamin; kadang-kadang pendekatan aneh kadang berhasil.
Pendekatan TFA meng-encode ke ruang 32 dimensi, yang sudah jauh melampaui kompresi berbasis psikoakustik. Selain itu, menghapus informasi yang hampir tidak bisa dikenali tidak banyak maknanya jika tujuannya memang tugas generatif baru seperti speech synthesis.
Manusia mengenali bunyi lewat komponen frekuensi. Di telinga ada bank filter dengan banyak frekuensi resonansi (bergantung panjang rambut halus), dan persepsi bicara memakai formant untuk menilai gerakan artikulasi ketika suara diproduksi. Kalau tokenisasi frame MP3, informasi frekuensi jadi black box karena kuantisasi, Huffman encoding, dan struktur frame. Struktur ini tetap memungkinkan prediksi teks, tetapi makin menyembunyikan informasi penting makin sulit. Tanpa akses langsung ke informasi formant, generalisasi juga sulit, dan bila LLM hanya dilatih pada satu tipe speaker, masuk akal untuk meragukan apakah ia bisa mengenali suara anak atau suara sintetis.
Ia memuji bahwa ini penjelasan yang paling nyaman dilihat, dan berbagi bahwa dirinya juga pernah mencoba tokenisasi teks hasil render dengan VQ-VAE. Dengan font 10pt dan sumber PDF, ia mencoba menghasilkan gambar teks matang memakai model diffusion, lalu mempelajari representasi laten yang mencakup tipe dokumen dan bahasa. Banyak hal dipelajarinya, dan ia terkagum-kagum tulisan ini sangat elegan.
Ia mempertanyakan, "Mengapa tidak membangun LLM langsung dari tokenisasi suara murni, dan selalu mengandalkan transkrip teks?" dan menekankan bahwa data suara yang tersedia sangat besar.
Ia menjelaskan postingan ini memang memang membahas pertanyaan tersebut (cara mengubah sinyal kontinu suara jadi token diskrit). Jarak waktu satu window audio 10–100ms membuat muatnya informasi ke satu token jadi sulit. Residual vector quantization menyempurnakan (quantize) satu time slice melalui banyak dictionary secara berulang. Di akhir postingan, juga terlihat contoh pelatihan LLM dengan codec Mimi.
Data teks banyak yang sudah dibersihkan dan distandarisasi, tetapi suara harus memperhitungkan bahasa, dialek, intonasi, ekspresi, bahkan gestur, sehingga lebih kompleks. Mengonversi suara ke teks membuang data liar itu dan menyisakan token yang bersih berisi makna linguistik, yang lebih efisien dan kuat untuk pemetaan multinasional.
Latihan berbasis token audio memang lebih mahal, tetapi ia melihat suatu hari pendekatan ini akan jadi arus utama. Ada perbedaan jelas dalam efisiensi dan hasil antara pelatihan dari transkrip teks kuliah YouTube dan pelatihan dari rekaman audio langsung.
Tokenisasi audio punya setidaknya 4x jumlah token lebih banyak dibanding teks, jadi masalah efisiensi muncul dari awal. Lalu sisa pertanyaannya: apakah datanya cukup untuk melatih LLM dari audio murni.
Ia berpendapat belum ada transformer revolusioner untuk audio, tetapi model yang berorientasi audio secara teori memang akan jauh lebih unggul.
Ia bilang tak mengenal proyek atau perusahaan Kyutai, lalu merasa ini sangat pas dengan proyek yang tengah ia kerjakan.
Ia mengagumi kerja ini sebagai pekerjaan yang sangat menarik; faktanya, audio memang lebih sulit dari teks, tetapi menarik bahwa inti menyesuaikan LLM langsung ke audio adalah menemukan codec suara yang paling efisien. Suatu saat, voice codec yang paling pas dengan LLM mungkin muncul bukan dari transformasi Fourier, melainkan dari representasi parameter fisik laring, lidah, tenggorokan, dan mulut. Karena anatomi manusia tidak berubah jauh, mungkin suatu hari model seperti ini jadi standar statistik. Ia menyebutnya sebagai formant speech encoding—ini berasal dari riset speech synthesis.
Sebagai penulis, ia mengucapkan terima kasih lebih dulu karena dukungannya. Menurutnya, codec berbasis fisik (parameter glottis, lidah, dan seterusnya) tidak cocok dengan arus ML modern. Saat ini ML fokusnya adalah memasukkan sebisa mungkin sedikit pengetahuan ahli domain, lalu menyerahkan sebanyak mungkin beban ke transformer. Semakin banyak kendala yang Anda tambahkan, semakin sempit rentang suara yang dapat direpresentasikan dan kualitas jadi terbatas. Namun, saat model dibatasi, penelitian yang benar-benar efisien dan menarik bisa juga bermunculan; contohnya paper DDSP yang mengendalikan synthesizer lewat ML untuk mensintesis suara instrumen—ini juga bisa untuk speech. Kualitas memang turun, tapi jumlah parameternya jauh lebih sedikit. Tiny TTS seperti KokoroTTS yang menyintesis suara langsung dari konsonan + vokal juga jalan pakai pendekatan ini, jadi parameternya sangat sedikit untuk operasi. Paper DDSP, proyek KokoroTTS
Upaya membuat suara berbasis fisika sudah lama ada, termasuk bereksperimen meniru struktur mulut/aliran udara agar benar-benar bicara. Tapi pendekatan ini melakukan kesalahan karena menganggap penulisan sebagai turunan dari berbicara.
Di sisi enkripsi dan sintesis suara, model source-filter (pemfaktoran sumber-suara ke filter traktus vokal) adalah metode orisinalnya. Ini bahkan lebih tua daripada penemuan ulang FFT.
Ia bertanya apakah 100k jam latih sudah cukup, karena dalam standar LLM itu terasa belum banyak, dan ini mengingatkan pada "Bitter Lesson" (pelajaran pahit bahwa data dan komputasi adalah yang paling penting).
Ia mengatakan tulisan ini disusun sangat baik dan bermanfaat sehingga ingin membagikannya ke timnya, dan karena mulai mengintegrasikan audio dan voice ke produk AI perusahaannya, ini jadi referensi yang sangat praktis.