- Suara manusia adalah medium paling akrab yang menyampaikan makna mendalam melalui beragam variasi seperti nada, pitch, ritme, dan emosi
- Asisten suara digital saat ini kekurangan unsur emosional tersebut, sehingga memiliki keterbatasan dalam berkolaborasi secara efektif dengan pengguna
- Suara yang tidak memiliki emosi mungkin terasa mengagumkan pada awalnya, tetapi seiring waktu bisa terasa mengecewakan dan melelahkan
- Tujuan Sesame adalah agar mitra percakapan tidak hanya memproses permintaan, tetapi melampauinya dengan membangun kepercayaan dan keyakinan lewat percakapan yang sungguh-sungguh
- Melalui hal ini, mereka ingin memaksimalkan potensi suara dan menjadikannya antarmuka utama untuk instruksi dan pemahaman
Elemen inti
- Kecerdasan emosional: kemampuan membaca dan merespons konteks emosional
- Dinamika percakapan: alur percakapan yang mencakup timing alami, jeda, interupsi, penekanan, dan sebagainya
- Kesadaran situasional: kemampuan menyesuaikan nada dan gaya sesuai situasi
- Kepribadian yang konsisten: menjaga kehadiran yang konsisten, dapat dipercaya, dan tepat
Kita belum sampai ke sana
- Memberikan kehadiran suara kepada pendamping digital adalah tugas yang sulit, tetapi kami terus membuat kemajuan di berbagai aspek seperti kepribadian, memori, daya ekspresi, dan kepantasan
- Demo di bawah ini menunjukkan sebagian dari upaya menghasilkan suara percakapan yang dioptimalkan untuk keakraban dan daya ekspresi
Membangun generasi suara percakapan
- Untuk menciptakan pendamping AI yang benar-benar interaktif, tidak cukup hanya menghasilkan audio berkualitas tinggi; sistem juga harus memahami dan beradaptasi dengan konteks secara real-time
- Model text-to-speech (TTS) tradisional menghasilkan suara langsung dari teks, tetapi kurang memiliki kesadaran konteks yang dibutuhkan untuk percakapan alami
- Model terbaru dapat menghasilkan suara mirip manusia, tetapi menghadapi masalah 'one-to-many', yaitu satu kalimat yang sama bisa diungkapkan dengan berbagai cara
- Tanpa konteks tambahan (nada, ritme, riwayat percakapan, dan sebagainya), model kekurangan informasi untuk membuat pilihan terbaik
- Menangkap nuansa halus seperti ini memerlukan penalaran atas berbagai aspek bahasa dan prosodi
Model suara percakapan (Conversational Speech Model, CSM)
- Untuk menyelesaikan masalah ini, diperkenalkan Conversational Speech Model (CSM), yang mendefinisikan masalah sebagai tugas pembelajaran multimodal end-to-end dengan menggunakan transformer
- Model ini memanfaatkan riwayat percakapan untuk menghasilkan suara yang lebih alami dan konsisten
- CSM bekerja sebagai model satu tahap, sehingga meningkatkan efisiensi dan daya ekspresi
- CSM juga memiliki evaluation suite untuk mengevaluasi kemajuan pada fitur-fitur kontekstual, mengingat evaluasi publik yang umum sudah mencapai titik jenuh
Latar belakang
- Salah satu pendekatan untuk memodelkan audio dengan transformer adalah mengubah waveform kontinu menjadi urutan token audio diskret menggunakan tokenizer
- Sebagian besar pendekatan modern bergantung pada dua jenis token audio:
- Token semantik: representasi terkompresi yang invarian terhadap pembicara untuk fitur semantik dan fonetik, yang menangkap karakteristik utama suara dengan mengorbankan representasi berketelitian tinggi
- Token akustik: pengodean detail akustik yang halus yang memungkinkan rekonstruksi audio berketelitian tinggi, dihasilkan menggunakan Residual Vector Quantization (RVQ). Berbeda dengan token semantik, token ini mempertahankan karakteristik suara alami seperti identitas unik pembicara dan timbre
Eksperimen
- Dataset: menggunakan sekitar satu juta jam dataset audio yang tersedia secara publik, sebagian besar berbahasa Inggris
- Ukuran model: melatih tiga ukuran model yang dibedakan berdasarkan ukuran backbone dan decoder:
- Tiny: backbone 1 miliar, decoder 100 juta
- Small: backbone 3 miliar, decoder 250 juta
- Medium: backbone 8 miliar, decoder 300 juta
- Setiap model dilatih selama 5 epoch dengan panjang urutan 2048 (~2 menit audio)
Evaluasi
- Kinerja model dievaluasi pada empat aspek utama: kesetiaan terhadap teks, pemanfaatan konteks, prosodi, dan latensi
- Benchmark objektif mencakup Word Error Rate (WER) dan pengujian baru seperti disambiguasi homonim
- Evaluasi subjektif bergantung pada studi manusia Comparative Mean Opinion Score (CMOS) menggunakan dataset Expresso
Keterbatasan dan pekerjaan lanjutan
- CSM saat ini terutama dilatih dengan data berbahasa Inggris, dan meskipun ada beberapa kemampuan multibahasa akibat kontaminasi dataset, performanya masih belum baik
- Model ini tidak memanfaatkan informasi yang ada dalam bobot model bahasa yang telah dipra-latih
1 komentar
Opini Hacker News
Brendan dari Sesame mengatakan umpan baliknya akurat, sambil mengakui masih banyak hal yang perlu diperbaiki. Ini menginspirasi, tetapi masih banyak langkah tersisa sebelum bisa memberikan pengalaman yang benar-benar matang. Saat ini masih berada di tahap awal perkembangan, tetapi ia tetap optimistis
Seorang pengguna mencoba demo tersebut, tetapi memutuskan untuk tidak berbicara. Pengalamannya terasa aneh dan mengganggu, dan antusiasme buatannya terasa menjengkelkan
Pengguna lain menyebut responsivitas dan kepribadian model ini mengejutkan. Fakta bahwa sistem mengingat percakapan sebelumnya dan memberikan sapaan selamat datang terasa mengesankan
Ada yang mempertanyakan mengapa suara emosional diperlukan
Seorang pengguna bermain dengan AI bersama putrinya yang berusia 4 tahun, dan khawatir putrinya membentuk keterikatan emosional dengan AI
Pengguna lain merasa suaranya terdengar seperti manusia, tetapi ritme bicaranya tidak alami
Disebutkan bahwa teknologi ini terlalu bagus hingga bisa memikat orang. Mereka berpendapat bahwa model pribadi diperlukan
Disebutkan bahwa ini bisa menjadi terobosan besar untuk belajar bahasa Inggris
Ada prediksi apokaliptik bahwa AI bisa menelepon orang dengan suara yang sempurna dan memikat mereka
Seorang pengguna berbicara selama 13 menit sebelum sistem crash, lalu kembali beberapa menit kemudian dan berbicara selama 30 menit, dan merasa ini sudah mendekati level Samantha dari film 'Her'