8 poin oleh GN⁺ 2025-03-10 | 1 komentar | Bagikan ke WhatsApp
  • Deteksi giliran adalah salah satu fitur terpenting dalam stack AI suara, yaitu teknologi yang menentukan kapan agen suara harus merespons saat seseorang berbicara
  • Sebagian besar agen suara memisahkan audio menjadi segmen suara dan non-suara berbasis VAD (Voice Activity Detection), sehingga makna akustik dan linguistik tidak tercerminkan
  • Manusia melakukan deteksi giliran melalui sinyal kompleks seperti tata bahasa, intonasi, dan kecepatan bicara
    • Tujuan: membangun model yang lebih dekat dengan ekspektasi manusia dibanding pendekatan berbasis VAD
  • Proyek pengembangan model deteksi giliran audio berbasis open source yang digerakkan komunitas
    • Lisensi BSD 2-clause → siapa pun dapat menggunakan, melakukan fork, dan berkontribusi
    • Proyek ini dimulai dari ekosistem Pipecat
    • Pipecat: framework AI suara dan multimodal yang open source serta independen dari vendor
  • Tujuan proyek
    • Tujuan tingkat tinggi
      • Mudah digunakan oleh siapa saja
      • Mudah diterapkan di production
      • Mudah di-fine-tune sesuai aplikasi tertentu
    • Keterbatasan model saat ini
      • Hanya mendukung bahasa Inggris
      • Kecepatan inferensi relatif lambat: sekitar 150ms di GPU, dan sekitar 1500ms di CPU
      • Data pelatihan terutama berfokus pada ujaran yang tidak selesai (filler words) yang muncul di akhir segmen
    • Tujuan jangka menengah
      • Dukungan untuk berbagai bahasa
      • Waktu inferensi: di bawah 50ms di GPU, di bawah 500ms di CPU
      • Mencerminkan data pelatihan dengan nuansa suara yang lebih luas
      • Membangun pipeline pembuatan data sintetis sepenuhnya
      • Dukungan conditioning berbasis teks (misalnya: input kartu kredit, nomor telepon, alamat, dll.)
  • Arsitektur model
    • Berbasis backbone Wav2Vec2-BERT dari Meta AI (jumlah parameter: 580M)
      • Menggunakan data audio pembelajaran tanpa supervisi selama 4,5 juta jam dalam 143 bahasa
    • Struktur model saat ini:
      • Wav2Vec2-BERT → classification head 2-layer
      • Menggunakan Wav2Vec2BertForSequenceClassification dari Hugging Face
    • Arsitektur yang sedang diuji:
      • Menguji apakah classifier sederhana tetap efektif saat dataset diperluas
      • Meninjau kemungkinan penerapan struktur yang lebih kompleks

1 komentar

 
GN⁺ 2025-03-10
Komentar Hacker News
  • Pernah memakai pipecat dan itu bagus. Tetapi kemudian beralih ke sherpa-onnx yang bisa dikompilasi secara native dan dijalankan di perangkat edge

    • Saat memakai aplikasi Google Translate, saya sering mengucapkan kalimat panjang lalu berhenti sejenak atau memperlambat tempo, jadi saya menghindari mode percakapan
    • Masalah ini membutuhkan deteksi giliran berlatensi rendah, deteksi interupsi suara, dan LLM latensi rendah yang sangat cepat
    • Dibutuhkan fitur pemulihan yang baik agar sistem bisa melanjutkan kalimat terakhir tanpa membuang audio sebelumnya
    • Untuk meningkatkan latensi i/o, perlu memakai audio API berlatensi rendah, buffer audio yang sangat pendek, serta kategori dan mode audio khusus
    • Saya tidak yakin apakah TTS bisa dipakai dalam mode streaming
    • Push-to-talk yang dirancang dengan baik bisa menjadi solusi yang bagus
  • Ada beberapa pembaruan menarik hari ini

    • Inferensi 100ms menggunakan CoreML
    • Model LSTM yang dilatih pada subset data
  • Saya mendapatkan sebagian besar jawabannya dari README. Ditulis dengan baik

  • Saya penasaran apakah bisa membagikan sumber daya dan jumlah yang dibutuhkan untuk melakukan fine-tuning Wav2Vec2-BERT

  • Saya penasaran apa itu deteksi giliran

  • Senang melihat teknologi ini berkembang lebih jauh

    • Dari sistem suara terburuk seperti Siri sampai mode suara ChatGPT, komputer tidak terlalu bagus dalam melakukan ini
    • Ini mungkin hambatan terbesar agar 'agen' bisa melakukan tugas sederhana namun berguna
    • Masih banyak situasi yang sulit bagi AI, dan kesalahan seperti ini bisa menghancurkan efisiensi percakapan atau menyebabkan kegagalan fungsi yang serius
  • Sebagai seseorang yang didiagnosis autisme HF, saya ingin menerapkan teknologi ini pada earpiece

  • Setelah meninjau beberapa model berbasis giliran, implementasinya tampak sangat konsisten. Saya menantikan bagaimana teknologi ini akan berkembang

  • Saya harap Vedal mengintegrasikan teknologi ini ke model Neuro-sama. Contoh transformasi dari bot osu menjadi AI Vtuber

  • Saya penasaran apakah ini mendukung beberapa pembicara

  • Sedang melakukan fork