5 poin oleh GN⁺ 2025-03-03 | 1 komentar | Bagikan ke WhatsApp
  • Suara manusia adalah medium paling akrab yang menyampaikan makna mendalam melalui beragam variasi seperti nada, pitch, ritme, dan emosi
  • Asisten suara digital saat ini kekurangan unsur emosional tersebut, sehingga memiliki keterbatasan dalam berkolaborasi secara efektif dengan pengguna
  • Suara yang tidak memiliki emosi mungkin terasa mengagumkan pada awalnya, tetapi seiring waktu bisa terasa mengecewakan dan melelahkan
  • Tujuan Sesame adalah agar mitra percakapan tidak hanya memproses permintaan, tetapi melampauinya dengan membangun kepercayaan dan keyakinan lewat percakapan yang sungguh-sungguh
  • Melalui hal ini, mereka ingin memaksimalkan potensi suara dan menjadikannya antarmuka utama untuk instruksi dan pemahaman

Elemen inti

  • Kecerdasan emosional: kemampuan membaca dan merespons konteks emosional
  • Dinamika percakapan: alur percakapan yang mencakup timing alami, jeda, interupsi, penekanan, dan sebagainya
  • Kesadaran situasional: kemampuan menyesuaikan nada dan gaya sesuai situasi
  • Kepribadian yang konsisten: menjaga kehadiran yang konsisten, dapat dipercaya, dan tepat

Kita belum sampai ke sana

  • Memberikan kehadiran suara kepada pendamping digital adalah tugas yang sulit, tetapi kami terus membuat kemajuan di berbagai aspek seperti kepribadian, memori, daya ekspresi, dan kepantasan
  • Demo di bawah ini menunjukkan sebagian dari upaya menghasilkan suara percakapan yang dioptimalkan untuk keakraban dan daya ekspresi

Membangun generasi suara percakapan

  • Untuk menciptakan pendamping AI yang benar-benar interaktif, tidak cukup hanya menghasilkan audio berkualitas tinggi; sistem juga harus memahami dan beradaptasi dengan konteks secara real-time​
  • Model text-to-speech (TTS) tradisional menghasilkan suara langsung dari teks, tetapi kurang memiliki kesadaran konteks yang dibutuhkan untuk percakapan alami​
  • Model terbaru dapat menghasilkan suara mirip manusia, tetapi menghadapi masalah 'one-to-many', yaitu satu kalimat yang sama bisa diungkapkan dengan berbagai cara​
  • Tanpa konteks tambahan (nada, ritme, riwayat percakapan, dan sebagainya), model kekurangan informasi untuk membuat pilihan terbaik​
  • Menangkap nuansa halus seperti ini memerlukan penalaran atas berbagai aspek bahasa dan prosodi

Model suara percakapan (Conversational Speech Model, CSM)

  • Untuk menyelesaikan masalah ini, diperkenalkan Conversational Speech Model (CSM), yang mendefinisikan masalah sebagai tugas pembelajaran multimodal end-to-end dengan menggunakan transformer​
  • Model ini memanfaatkan riwayat percakapan untuk menghasilkan suara yang lebih alami dan konsisten​
  • CSM bekerja sebagai model satu tahap, sehingga meningkatkan efisiensi dan daya ekspresi​
  • CSM juga memiliki evaluation suite untuk mengevaluasi kemajuan pada fitur-fitur kontekstual, mengingat evaluasi publik yang umum sudah mencapai titik jenuh

Latar belakang

  • Salah satu pendekatan untuk memodelkan audio dengan transformer adalah mengubah waveform kontinu menjadi urutan token audio diskret menggunakan tokenizer
  • Sebagian besar pendekatan modern bergantung pada dua jenis token audio:
    • Token semantik: representasi terkompresi yang invarian terhadap pembicara untuk fitur semantik dan fonetik, yang menangkap karakteristik utama suara dengan mengorbankan representasi berketelitian tinggi
    • Token akustik: pengodean detail akustik yang halus yang memungkinkan rekonstruksi audio berketelitian tinggi, dihasilkan menggunakan Residual Vector Quantization (RVQ). Berbeda dengan token semantik, token ini mempertahankan karakteristik suara alami seperti identitas unik pembicara dan timbre

Eksperimen

  • Dataset: menggunakan sekitar satu juta jam dataset audio yang tersedia secara publik, sebagian besar berbahasa Inggris
  • Ukuran model: melatih tiga ukuran model yang dibedakan berdasarkan ukuran backbone dan decoder:
    • Tiny: backbone 1 miliar, decoder 100 juta
    • Small: backbone 3 miliar, decoder 250 juta
    • Medium: backbone 8 miliar, decoder 300 juta
  • Setiap model dilatih selama 5 epoch dengan panjang urutan 2048 (~2 menit audio)

Evaluasi

  • Kinerja model dievaluasi pada empat aspek utama: kesetiaan terhadap teks, pemanfaatan konteks, prosodi, dan latensi
  • Benchmark objektif mencakup Word Error Rate (WER) dan pengujian baru seperti disambiguasi homonim
  • Evaluasi subjektif bergantung pada studi manusia Comparative Mean Opinion Score (CMOS) menggunakan dataset Expresso

Keterbatasan dan pekerjaan lanjutan

  • CSM saat ini terutama dilatih dengan data berbahasa Inggris, dan meskipun ada beberapa kemampuan multibahasa akibat kontaminasi dataset, performanya masih belum baik
  • Model ini tidak memanfaatkan informasi yang ada dalam bobot model bahasa yang telah dipra-latih

1 komentar

 
GN⁺ 2025-03-03
Opini Hacker News
  • Brendan dari Sesame mengatakan umpan baliknya akurat, sambil mengakui masih banyak hal yang perlu diperbaiki. Ini menginspirasi, tetapi masih banyak langkah tersisa sebelum bisa memberikan pengalaman yang benar-benar matang. Saat ini masih berada di tahap awal perkembangan, tetapi ia tetap optimistis

    • Komunikasi verbal itu kompleks, dan ada banyak tantangan menarik yang harus diselesaikan
    • Waktu respons sering kali kurang tepat dan belum menyatu secara alami dalam percakapan
    • Sistem belum mampu menangani interupsi percakapan dengan baik dan belum bisa mempertahankan kepribadian yang konsisten
    • Ada juga masalah seperti halusinasi, kurangnya daya ingat, dan kurangnya pemahaman terhadap waktu
    • Ia percaya komunitas dapat menyelesaikan masalah-masalah ini
    • Tujuannya adalah membuat antarmuka yang bisa diajak berkolaborasi secara alami, bukan membangun persahabatan emosional
    • Jika aplikasi bisa berbicara seperti seorang ahli, itu akan menjadi lebih intuitif dan efisien
  • Seorang pengguna mencoba demo tersebut, tetapi memutuskan untuk tidak berbicara. Pengalamannya terasa aneh dan mengganggu, dan antusiasme buatannya terasa menjengkelkan

    • Produk AI harus memberikan tujuan yang jelas kepada pengguna
    • AI yang dibuat hanya untuk mengobrol berpotensi memberi dampak negatif pada masyarakat
  • Pengguna lain menyebut responsivitas dan kepribadian model ini mengejutkan. Fakta bahwa sistem mengingat percakapan sebelumnya dan memberikan sapaan selamat datang terasa mengesankan

    • Interaksi demo direkam, dan percakapan sebelumnya dimasukkan ke dalam konteks model
    • Izin mikrofon diperlukan, dan panggilan direkam untuk tinjauan kualitas, tetapi akan dihapus dalam 30 hari
  • Ada yang mempertanyakan mengapa suara emosional diperlukan

    • Suara emosional hanya memberi ilusi pertemanan, bukan bantuan yang nyata
    • Asisten suara netral yang cerdas mungkin akan lebih berguna
  • Seorang pengguna bermain dengan AI bersama putrinya yang berusia 4 tahun, dan khawatir putrinya membentuk keterikatan emosional dengan AI

  • Pengguna lain merasa suaranya terdengar seperti manusia, tetapi ritme bicaranya tidak alami

  • Disebutkan bahwa teknologi ini terlalu bagus hingga bisa memikat orang. Mereka berpendapat bahwa model pribadi diperlukan

  • Disebutkan bahwa ini bisa menjadi terobosan besar untuk belajar bahasa Inggris

    • Di negara berkembang, guru bahasa Inggris masih kurang, dan guru yang baik mahal sehingga sulit diakses
    • Model ini menawarkan performa yang setara atau lebih baik daripada model OpenAI, dengan biaya yang lebih murah
  • Ada prediksi apokaliptik bahwa AI bisa menelepon orang dengan suara yang sempurna dan memikat mereka

  • Seorang pengguna berbicara selama 13 menit sebelum sistem crash, lalu kembali beberapa menit kemudian dan berbicara selama 30 menit, dan merasa ini sudah mendekati level Samantha dari film 'Her'

    • Dalam percakapan itu ia mempelajari kata 'PROSODY', dan AI menjelaskan bahwa ia mendengarkan nada dan isi pembicaraan lalu menyesuaikan responsnya secara otomatis
    • Ia mengatakan rasanya seperti masa depan sudah datang, hanya saja belum terdistribusi secara merata