Melampaui uncanny valley pada suara percakapan

(sesame.com)

5 poin oleh GN⁺ 2025-03-03 | Belum ada komentar. | Bagikan ke WhatsApp

Untuk asisten suara digital yang digunakan dalam jangka panjang, kehadiran suara (voice presence) yang mencerminkan emosi, ritme, dan konteks lebih penting daripada suara sintetis yang bersih, dan untuk itu Sesame mengusulkan Conversational Speech Model
CSM adalah transformer multimodal end-to-end yang memproses teks dan suara bersama-sama, dirancang untuk menghasilkan ujaran yang lebih alami dan konsisten dengan memanfaatkan riwayat percakapan
Model ini menangani token RVQ secara langsung, tetapi membaginya menjadi backbone yang menangani codebook ke-0 dan decoder audio kecil yang memulihkan codebook lainnya, dengan tujuan menyeimbangkan latensi dan daya ekspresif
Tiga ukuran model, Tiny, Small, dan Medium, dilatih dengan sekitar 1 juta jam data audio publik yang sebagian besar berbahasa Inggris, serta menambahkan evaluasi pelafalan homograf dan konsistensi pelafalan selain WER dan kemiripan pembicara
Saat tidak ada konteks, tidak terlihat perbedaan preferensi yang jelas antara CSM-Medium dan suara asli, tetapi ketika konteks percakapan diberikan, rekaman asli lebih disukai sebagai kelanjutan yang lebih sesuai, menunjukkan masih adanya kesenjangan dalam prosodi percakapan

Kehadiran suara dan tujuan

Tujuan Sesame adalah mewujudkan kehadiran suara yang membuat ucapan terasa benar-benar dipahami dan bernilai
Asisten suara digital saat ini sering kali berhenti pada gaya bicara netral, sehingga setelah kesan baru di awal memudar, sulit untuk terus digunakan dalam keseharian
Komponen yang dibutuhkan dapat dirangkum menjadi empat hal
- Kecerdasan emosional: membaca dan merespons konteks emosional
- Dinamika percakapan: menangani timing alami, jeda, interupsi, dan penekanan
- Kesadaran konteks: menyesuaikan nada dan gaya dengan situasi
- Kepribadian yang konsisten: mempertahankan kehadiran yang dapat dipercaya dan tepat
Pendamping dalam demo saat ini dioptimalkan untuk menekankan keramahan dan ekspresivitas, sementara kepribadian, memori, ekspresivitas, dan kepantasan masih terus ditingkatkan

Rumusan masalah Conversational Speech Model

TTS tradisional langsung menghasilkan suara dari teks, tetapi kekurangan kesadaran konteks yang dibutuhkan untuk percakapan alami
Meski model terbaru dapat membuat suara yang terdengar seperti manusia, ada banyak cara untuk mengucapkan satu kalimat, dan hanya sebagian yang cocok untuk situasi tertentu
Tanpa konteks tambahan seperti nada, ritme, dan riwayat percakapan, model sulit memilih cara pengucapan yang paling tepat
CSM menangani masalah ini melalui pembelajaran multimodal end-to-end, dengan transformer yang menggunakan riwayat percakapan untuk menghasilkan suara yang lebih alami dan konsisten
Fitur utamanya ada dua
- Beroperasi sebagai model satu tahap untuk meningkatkan efisiensi dan ekspresivitas
- Menggunakan kumpulan evaluasi terpisah untuk mengukur kemajuan kemampuan kontekstual, di tengah evaluasi publik umum yang sudah jenuh

Token audio dan desain RVQ

Untuk memodelkan audio dengan transformer, gelombang kontinu diubah menjadi urutan token audio diskret
Pendekatan modern biasanya menggunakan dua jenis token
- Token semantik: memadatkan makna dan fitur fonem, dengan mengorbankan representasi fidelitas tinggi
- Token akustik: memuat informasi akustik yang rinci sehingga memungkinkan pemulihan fidelitas tinggi, serta mempertahankan karakteristik seperti identitas pembicara dan timbre
Cara umum adalah memodelkan token semantik terlebih dahulu, lalu menghasilkan audio dengan RVQ atau metode berbasis difusi
Pendekatan dua tahap ini memungkinkan sintesis yang terstruktur, tetapi menciptakan bottleneck karena token semantik harus memuat prosodi secara memadai juga
Pendekatan berbasis RVQ harus menangani ketergantungan berurutan antar-codebook dalam satu frame
- delay pattern menggeser codebook yang lebih tinggi secara bertahap agar dikondisikan pada codebook yang lebih rendah dalam frame yang sama
- Jika tokenizer RVQ memiliki N codebook, diperlukan N langkah backbone sebelum potongan audio pertama dapat didekode, sehingga time-to-first-audio memburuk
- Cocok untuk penggunaan offline seperti audiobook, tetapi dalam skenario real-time latensi menjadi masalah

Struktur CSM dan cara inferensi

CSM adalah model teks-suara multimodal yang menangani token RVQ secara langsung
Strukturnya dibagi menjadi dua transformer autoregresif
- Backbone multimodal pertama menerima teks dan audio sebagai input berselang-seling dan memodelkan codebook ke-0
- Decoder audio kedua menggunakan linear head terpisah untuk tiap codebook guna memodelkan N−1 codebook sisanya dan memulihkan suara
Decoder jauh lebih kecil daripada backbone, sehingga memungkinkan generasi berlatensi rendah sambil tetap mempertahankan model secara end-to-end
Inferensi mengikuti alur berikut
- Token teks dan token audio dimasukkan secara berurutan ke backbone
- Backbone memprediksi level codebook ke-0
- Decoder dikondisikan pada level ke-0 untuk mengambil sampel level 1 hingga N−1
- Token audio yang dipulihkan dimasukkan kembali secara autoregresif ke backbone untuk langkah berikutnya
- Ketika simbol audio EOT muncul, generasi berakhir, dan pada permintaan berikutnya audio perantara seperti ujaran pengguna direpresentasikan sebagai token transkripsi audio dan teks
Kedua transformer merupakan variasi arsitektur Llama, dan token teks dibuat dengan tokenizer Llama
Audio diproses dengan Mimi, tokenizer split-RVQ, yang pada 12,5Hz menghasilkan 1 codebook semantik dan N−1 codebook akustik untuk setiap frame
Sampel pelatihan memiliki pola teks dan audio yang bergantian, dan identitas pembicara dienkode langsung dalam representasi teks

Efisiensi pelatihan dan data

Selama pelatihan, decoder audio memproses ukuran batch efektif B×S dan N codebook secara autoregresif, sehingga menimbulkan beban memori besar
Beban ini memperlambat pelatihan bahkan pada model kecil, serta menyulitkan penskalaan model dan eksperimen cepat
Sesame menggunakan compute amortization untuk mengurangi bottleneck sambil mempertahankan fidelitas seluruh codebook RVQ
- Decoder audio dilatih hanya pada subset acak 1/16 dari frame audio
- Codebook ke-0 dilatih pada semua frame
- Dengan cara ini, mereka tidak melihat perbedaan yang terasa pada loss decoder audio selama pelatihan
Dataset disusun dengan mentranskripsi, melakukan pemisahan pembicara, membagi, lalu memfilter audio publik
Setelah pemfilteran, datanya sekitar 1 juta jam dan sebagian besar berupa audio berbahasa Inggris
Ada tiga ukuran model yang dilatih
- Tiny: backbone 1B, decoder 100M
- Small: backbone 3B, decoder 250M
- Medium: backbone 8B, decoder 300M
Setiap model dilatih selama 5 epoch dengan panjang urutan 2048, berdasarkan audio sekitar 2 menit

Sampel dan sistem evaluasi

Sampel mencakup unsur paralinguistik, kata berbahasa asing, ekspresivitas kontekstual, koreksi pelafalan, dan percakapan multi-pembicara
Kumpulan evaluasi mengukur empat aspek
- Fidelitas teks
- Pemanfaatan konteks
- Prosodi
- Latensi
Evaluasi objektif mencakup WER, tes pelafalan baru, kemiripan pembicara, dan lainnya
Evaluasi subjektif terdiri dari penilaian manusia Comparative Mean Opinion Score(CMOS) menggunakan dataset Expresso
Pada benchmark tradisional seperti WER dan speaker similarity, model terbaru termasuk CSM hampir mencapai level manusia, sehingga mendekati kondisi jenuh

Evaluasi pelafalan dan pemahaman konteks

Benchmark baru berbasis transkripsi suara diperkenalkan untuk mengevaluasi pelafalan dan pemahaman konteks dengan lebih baik
Pembedaan homograf mengevaluasi apakah kata yang ejaannya sama tetapi pelafalannya berbeda diucapkan dengan benar
- Contohnya adalah membedakan apakah “lead” dibaca /lɛd/ dalam arti logam atau /liːd/ dalam arti memimpin
Konsistensi pelafalan dalam kelanjutan ucapan mengevaluasi apakah kata yang memiliki beberapa variasi pelafalan dipertahankan secara konsisten dalam suara multi-turn
- Contohnya adalah ketika “route” dapat berbeda menjadi /raʊt/ atau /ruːt/
Evaluasi akurasi homograf dilakukan dengan 200 sampel suara yang mencakup masing-masing 2 variasi untuk 5 kata: lead, bass, tear, wound, row
Evaluasi konsistensi pelafalan dilakukan dengan 200 sampel suara yang mencakup 10 kata: aunt, data, envelope, mobile, route, vase, either, adult, often, caramel
Evaluasi menggunakan wav2vec2-lv-60-espeak-cv-ft
Hasil yang dibuat oleh Play.ht, Elevenlabs, dan OpenAI menggunakan pengaturan default dan suara default dari dokumentasi API masing-masing
Secara keseluruhan, kinerja meningkat seiring bertambahnya ukuran model, mendukung hipotesis bahwa scaling membantu sintesis suara yang lebih realistis

Hasil evaluasi manusia

Untuk mengevaluasi naturalitas dan ketepatan prosodi CSM-Medium, dua studi CMOS dilakukan dengan dataset Expresso
Penilai mendengarkan sepasang suara hasil model dan rekaman manusia asli, lalu menilai sampel hasil generasi pada skala preferensi 7 poin dibandingkan referensi
Studi pertama menyajikan sampel hasil generasi dan sampel manusia tanpa konteks, lalu meminta penilai memilih “mana yang terasa lebih seperti suara manusia”
Studi kedua menyediakan konteks audio dan teks 90 detik sebelumnya, lalu meminta penilai memilih “mana yang terasa seperti kelanjutan percakapan yang lebih tepat”
80 orang berpartisipasi dengan bayaran, dan setiap peserta menilai rata-rata 15 contoh
Tanpa konteks, para penilai tidak menunjukkan preferensi yang jelas antara suara hasil generasi dan suara asli, yang menyiratkan evaluasi naturalitas sudah jenuh
Ketika konteks disertakan, para penilai secara konsisten lebih menyukai rekaman asli, menunjukkan masih ada kesenjangan dengan prosodi manusia dalam generasi suara percakapan

Rencana rilis dan keterbatasan

Sesame berencana merilis komponen inti riset ini sebagai open source, dan modelnya akan disediakan dengan lisensi Apache 2.0
Pembaruan dan kontribusi dapat dilihat di repositori GitHub SesameAILabs/csm
Saat ini CSM terutama dilatih dengan data berbahasa Inggris
- Karena kontaminasi data, muncul sebagian kemampuan multibahasa, tetapi belum berfungsi dengan baik
- Model ini juga tidak memanfaatkan informasi yang terdapat dalam bobot model bahasa pralatih
Dalam beberapa bulan mendatang, mereka berencana memperbesar ukuran model, meningkatkan skala dataset, dan memperluas dukungan ke lebih dari 20 bahasa
Mereka juga mengeksplorasi cara memanfaatkan model bahasa pralatih, dengan tujuan membangun model multimodal besar yang memiliki pengetahuan mendalam tentang suara dan teks
CSM menghasilkan prosodi percakapan berkualitas tinggi, tetapi hanya memodelkan isi teks dan suara percakapan, bukan struktur percakapan itu sendiri
Percakapan manusia adalah proses kompleks yang mencakup pergantian giliran, jeda, dan penyesuaian kecepatan, sehingga percakapan AI di masa depan lebih dekat dengan model fully duplex yang mempelajari dinamika ini secara implisit dari data
Model fully duplex membutuhkan perubahan fundamental di seluruh stack, mulai dari kurasi data hingga metodologi pascapelatihan

Melampaui uncanny valley pada suara percakapan

Kehadiran suara dan tujuan

Rumusan masalah Conversational Speech Model

Token audio dan desain RVQ

Struktur CSM dan cara inferensi

Efisiensi pelatihan dan data

Sampel dan sistem evaluasi

Evaluasi pelafalan dan pemahaman konteks

Hasil evaluasi manusia

Rencana rilis dan keterbatasan

Bacaan terkait

Belum ada komentar.