Melampaui uncanny valley pada suara percakapan
(sesame.com)- Untuk asisten suara digital yang digunakan dalam jangka panjang, kehadiran suara (voice presence) yang mencerminkan emosi, ritme, dan konteks lebih penting daripada suara sintetis yang bersih, dan untuk itu Sesame mengusulkan Conversational Speech Model
- CSM adalah transformer multimodal end-to-end yang memproses teks dan suara bersama-sama, dirancang untuk menghasilkan ujaran yang lebih alami dan konsisten dengan memanfaatkan riwayat percakapan
- Model ini menangani token RVQ secara langsung, tetapi membaginya menjadi backbone yang menangani codebook ke-0 dan decoder audio kecil yang memulihkan codebook lainnya, dengan tujuan menyeimbangkan latensi dan daya ekspresif
- Tiga ukuran model, Tiny, Small, dan Medium, dilatih dengan sekitar 1 juta jam data audio publik yang sebagian besar berbahasa Inggris, serta menambahkan evaluasi pelafalan homograf dan konsistensi pelafalan selain WER dan kemiripan pembicara
- Saat tidak ada konteks, tidak terlihat perbedaan preferensi yang jelas antara CSM-Medium dan suara asli, tetapi ketika konteks percakapan diberikan, rekaman asli lebih disukai sebagai kelanjutan yang lebih sesuai, menunjukkan masih adanya kesenjangan dalam prosodi percakapan
Kehadiran suara dan tujuan
- Tujuan Sesame adalah mewujudkan kehadiran suara yang membuat ucapan terasa benar-benar dipahami dan bernilai
- Asisten suara digital saat ini sering kali berhenti pada gaya bicara netral, sehingga setelah kesan baru di awal memudar, sulit untuk terus digunakan dalam keseharian
- Komponen yang dibutuhkan dapat dirangkum menjadi empat hal
- Kecerdasan emosional: membaca dan merespons konteks emosional
- Dinamika percakapan: menangani timing alami, jeda, interupsi, dan penekanan
- Kesadaran konteks: menyesuaikan nada dan gaya dengan situasi
- Kepribadian yang konsisten: mempertahankan kehadiran yang dapat dipercaya dan tepat
- Pendamping dalam demo saat ini dioptimalkan untuk menekankan keramahan dan ekspresivitas, sementara kepribadian, memori, ekspresivitas, dan kepantasan masih terus ditingkatkan
Rumusan masalah Conversational Speech Model
- TTS tradisional langsung menghasilkan suara dari teks, tetapi kekurangan kesadaran konteks yang dibutuhkan untuk percakapan alami
- Meski model terbaru dapat membuat suara yang terdengar seperti manusia, ada banyak cara untuk mengucapkan satu kalimat, dan hanya sebagian yang cocok untuk situasi tertentu
- Tanpa konteks tambahan seperti nada, ritme, dan riwayat percakapan, model sulit memilih cara pengucapan yang paling tepat
- CSM menangani masalah ini melalui pembelajaran multimodal end-to-end, dengan transformer yang menggunakan riwayat percakapan untuk menghasilkan suara yang lebih alami dan konsisten
- Fitur utamanya ada dua
- Beroperasi sebagai model satu tahap untuk meningkatkan efisiensi dan ekspresivitas
- Menggunakan kumpulan evaluasi terpisah untuk mengukur kemajuan kemampuan kontekstual, di tengah evaluasi publik umum yang sudah jenuh
Token audio dan desain RVQ
- Untuk memodelkan audio dengan transformer, gelombang kontinu diubah menjadi urutan token audio diskret
- Pendekatan modern biasanya menggunakan dua jenis token
- Token semantik: memadatkan makna dan fitur fonem, dengan mengorbankan representasi fidelitas tinggi
- Token akustik: memuat informasi akustik yang rinci sehingga memungkinkan pemulihan fidelitas tinggi, serta mempertahankan karakteristik seperti identitas pembicara dan timbre
- Cara umum adalah memodelkan token semantik terlebih dahulu, lalu menghasilkan audio dengan RVQ atau metode berbasis difusi
- Pendekatan dua tahap ini memungkinkan sintesis yang terstruktur, tetapi menciptakan bottleneck karena token semantik harus memuat prosodi secara memadai juga
- Pendekatan berbasis RVQ harus menangani ketergantungan berurutan antar-codebook dalam satu frame
- delay pattern menggeser codebook yang lebih tinggi secara bertahap agar dikondisikan pada codebook yang lebih rendah dalam frame yang sama
- Jika tokenizer RVQ memiliki N codebook, diperlukan N langkah backbone sebelum potongan audio pertama dapat didekode, sehingga time-to-first-audio memburuk
- Cocok untuk penggunaan offline seperti audiobook, tetapi dalam skenario real-time latensi menjadi masalah
Struktur CSM dan cara inferensi
- CSM adalah model teks-suara multimodal yang menangani token RVQ secara langsung
- Strukturnya dibagi menjadi dua transformer autoregresif
- Backbone multimodal pertama menerima teks dan audio sebagai input berselang-seling dan memodelkan codebook ke-0
- Decoder audio kedua menggunakan linear head terpisah untuk tiap codebook guna memodelkan N−1 codebook sisanya dan memulihkan suara
- Decoder jauh lebih kecil daripada backbone, sehingga memungkinkan generasi berlatensi rendah sambil tetap mempertahankan model secara end-to-end
- Inferensi mengikuti alur berikut
- Token teks dan token audio dimasukkan secara berurutan ke backbone
- Backbone memprediksi level codebook ke-0
- Decoder dikondisikan pada level ke-0 untuk mengambil sampel level 1 hingga N−1
- Token audio yang dipulihkan dimasukkan kembali secara autoregresif ke backbone untuk langkah berikutnya
- Ketika simbol audio EOT muncul, generasi berakhir, dan pada permintaan berikutnya audio perantara seperti ujaran pengguna direpresentasikan sebagai token transkripsi audio dan teks
- Kedua transformer merupakan variasi arsitektur Llama, dan token teks dibuat dengan tokenizer Llama
- Audio diproses dengan Mimi, tokenizer split-RVQ, yang pada 12,5Hz menghasilkan 1 codebook semantik dan N−1 codebook akustik untuk setiap frame
- Sampel pelatihan memiliki pola teks dan audio yang bergantian, dan identitas pembicara dienkode langsung dalam representasi teks
Efisiensi pelatihan dan data
- Selama pelatihan, decoder audio memproses ukuran batch efektif B×S dan N codebook secara autoregresif, sehingga menimbulkan beban memori besar
- Beban ini memperlambat pelatihan bahkan pada model kecil, serta menyulitkan penskalaan model dan eksperimen cepat
- Sesame menggunakan compute amortization untuk mengurangi bottleneck sambil mempertahankan fidelitas seluruh codebook RVQ
- Decoder audio dilatih hanya pada subset acak 1/16 dari frame audio
- Codebook ke-0 dilatih pada semua frame
- Dengan cara ini, mereka tidak melihat perbedaan yang terasa pada loss decoder audio selama pelatihan
- Dataset disusun dengan mentranskripsi, melakukan pemisahan pembicara, membagi, lalu memfilter audio publik
- Setelah pemfilteran, datanya sekitar 1 juta jam dan sebagian besar berupa audio berbahasa Inggris
- Ada tiga ukuran model yang dilatih
- Tiny: backbone 1B, decoder 100M
- Small: backbone 3B, decoder 250M
- Medium: backbone 8B, decoder 300M
- Setiap model dilatih selama 5 epoch dengan panjang urutan 2048, berdasarkan audio sekitar 2 menit
Sampel dan sistem evaluasi
- Sampel mencakup unsur paralinguistik, kata berbahasa asing, ekspresivitas kontekstual, koreksi pelafalan, dan percakapan multi-pembicara
- Kumpulan evaluasi mengukur empat aspek
- Fidelitas teks
- Pemanfaatan konteks
- Prosodi
- Latensi
- Evaluasi objektif mencakup WER, tes pelafalan baru, kemiripan pembicara, dan lainnya
- Evaluasi subjektif terdiri dari penilaian manusia Comparative Mean Opinion Score(CMOS) menggunakan dataset Expresso
- Pada benchmark tradisional seperti WER dan speaker similarity, model terbaru termasuk CSM hampir mencapai level manusia, sehingga mendekati kondisi jenuh
Evaluasi pelafalan dan pemahaman konteks
- Benchmark baru berbasis transkripsi suara diperkenalkan untuk mengevaluasi pelafalan dan pemahaman konteks dengan lebih baik
- Pembedaan homograf mengevaluasi apakah kata yang ejaannya sama tetapi pelafalannya berbeda diucapkan dengan benar
- Contohnya adalah membedakan apakah “lead” dibaca /lɛd/ dalam arti logam atau /liːd/ dalam arti memimpin
- Konsistensi pelafalan dalam kelanjutan ucapan mengevaluasi apakah kata yang memiliki beberapa variasi pelafalan dipertahankan secara konsisten dalam suara multi-turn
- Contohnya adalah ketika “route” dapat berbeda menjadi /raʊt/ atau /ruːt/
- Evaluasi akurasi homograf dilakukan dengan 200 sampel suara yang mencakup masing-masing 2 variasi untuk 5 kata: lead, bass, tear, wound, row
- Evaluasi konsistensi pelafalan dilakukan dengan 200 sampel suara yang mencakup 10 kata: aunt, data, envelope, mobile, route, vase, either, adult, often, caramel
- Evaluasi menggunakan wav2vec2-lv-60-espeak-cv-ft
- Hasil yang dibuat oleh Play.ht, Elevenlabs, dan OpenAI menggunakan pengaturan default dan suara default dari dokumentasi API masing-masing
- Secara keseluruhan, kinerja meningkat seiring bertambahnya ukuran model, mendukung hipotesis bahwa scaling membantu sintesis suara yang lebih realistis
Hasil evaluasi manusia
- Untuk mengevaluasi naturalitas dan ketepatan prosodi CSM-Medium, dua studi CMOS dilakukan dengan dataset Expresso
- Penilai mendengarkan sepasang suara hasil model dan rekaman manusia asli, lalu menilai sampel hasil generasi pada skala preferensi 7 poin dibandingkan referensi
- Studi pertama menyajikan sampel hasil generasi dan sampel manusia tanpa konteks, lalu meminta penilai memilih “mana yang terasa lebih seperti suara manusia”
- Studi kedua menyediakan konteks audio dan teks 90 detik sebelumnya, lalu meminta penilai memilih “mana yang terasa seperti kelanjutan percakapan yang lebih tepat”
- 80 orang berpartisipasi dengan bayaran, dan setiap peserta menilai rata-rata 15 contoh
- Tanpa konteks, para penilai tidak menunjukkan preferensi yang jelas antara suara hasil generasi dan suara asli, yang menyiratkan evaluasi naturalitas sudah jenuh
- Ketika konteks disertakan, para penilai secara konsisten lebih menyukai rekaman asli, menunjukkan masih ada kesenjangan dengan prosodi manusia dalam generasi suara percakapan
Rencana rilis dan keterbatasan
- Sesame berencana merilis komponen inti riset ini sebagai open source, dan modelnya akan disediakan dengan lisensi Apache 2.0
- Pembaruan dan kontribusi dapat dilihat di repositori GitHub SesameAILabs/csm
- Saat ini CSM terutama dilatih dengan data berbahasa Inggris
- Karena kontaminasi data, muncul sebagian kemampuan multibahasa, tetapi belum berfungsi dengan baik
- Model ini juga tidak memanfaatkan informasi yang terdapat dalam bobot model bahasa pralatih
- Dalam beberapa bulan mendatang, mereka berencana memperbesar ukuran model, meningkatkan skala dataset, dan memperluas dukungan ke lebih dari 20 bahasa
- Mereka juga mengeksplorasi cara memanfaatkan model bahasa pralatih, dengan tujuan membangun model multimodal besar yang memiliki pengetahuan mendalam tentang suara dan teks
- CSM menghasilkan prosodi percakapan berkualitas tinggi, tetapi hanya memodelkan isi teks dan suara percakapan, bukan struktur percakapan itu sendiri
- Percakapan manusia adalah proses kompleks yang mencakup pergantian giliran, jeda, dan penyesuaian kecepatan, sehingga percakapan AI di masa depan lebih dekat dengan model fully duplex yang mempelajari dinamika ini secara implisit dari data
- Model fully duplex membutuhkan perubahan fundamental di seluruh stack, mulai dari kurasi data hingga metodologi pascapelatihan
Belum ada komentar.