Smart-turn - Model Deteksi Giliran Audio Open Source

(github.com/pipecat-ai)

8 poin oleh GN⁺ 2025-03-10 | 1 komentar | Bagikan ke WhatsApp

Deteksi giliran adalah salah satu fitur terpenting dalam stack AI suara, yaitu teknologi yang menentukan kapan agen suara harus merespons saat seseorang berbicara
Sebagian besar agen suara memisahkan audio menjadi segmen suara dan non-suara berbasis VAD (Voice Activity Detection), sehingga makna akustik dan linguistik tidak tercerminkan
Manusia melakukan deteksi giliran melalui sinyal kompleks seperti tata bahasa, intonasi, dan kecepatan bicara
- Tujuan: membangun model yang lebih dekat dengan ekspektasi manusia dibanding pendekatan berbasis VAD
Proyek pengembangan model deteksi giliran audio berbasis open source yang digerakkan komunitas
- Lisensi BSD 2-clause → siapa pun dapat menggunakan, melakukan fork, dan berkontribusi
- Proyek ini dimulai dari ekosistem Pipecat
- Pipecat: framework AI suara dan multimodal yang open source serta independen dari vendor
Tujuan proyek
- Tujuan tingkat tinggi
  - Mudah digunakan oleh siapa saja
  - Mudah diterapkan di production
  - Mudah di-fine-tune sesuai aplikasi tertentu
- Keterbatasan model saat ini
  - Hanya mendukung bahasa Inggris
  - Kecepatan inferensi relatif lambat: sekitar 150ms di GPU, dan sekitar 1500ms di CPU
  - Data pelatihan terutama berfokus pada ujaran yang tidak selesai (filler words) yang muncul di akhir segmen
- Tujuan jangka menengah
  - Dukungan untuk berbagai bahasa
  - Waktu inferensi: di bawah 50ms di GPU, di bawah 500ms di CPU
  - Mencerminkan data pelatihan dengan nuansa suara yang lebih luas
  - Membangun pipeline pembuatan data sintetis sepenuhnya
  - Dukungan conditioning berbasis teks (misalnya: input kartu kredit, nomor telepon, alamat, dll.)
Arsitektur model
- Berbasis backbone Wav2Vec2-BERT dari Meta AI (jumlah parameter: 580M)
  - Menggunakan data audio pembelajaran tanpa supervisi selama 4,5 juta jam dalam 143 bahasa
- Struktur model saat ini:
  - Wav2Vec2-BERT → classification head 2-layer
  - Menggunakan Wav2Vec2BertForSequenceClassification dari Hugging Face
- Arsitektur yang sedang diuji:
  - Menguji apakah classifier sederhana tetap efektif saat dataset diperluas
  - Meninjau kemungkinan penerapan struktur yang lebih kompleks

1 komentar

GN⁺ 2025-03-10

Komentar Hacker News

Pernah memakai pipecat dan itu bagus. Tetapi kemudian beralih ke sherpa-onnx yang bisa dikompilasi secara native dan dijalankan di perangkat edge
- Saat memakai aplikasi Google Translate, saya sering mengucapkan kalimat panjang lalu berhenti sejenak atau memperlambat tempo, jadi saya menghindari mode percakapan
- Masalah ini membutuhkan deteksi giliran berlatensi rendah, deteksi interupsi suara, dan LLM latensi rendah yang sangat cepat
- Dibutuhkan fitur pemulihan yang baik agar sistem bisa melanjutkan kalimat terakhir tanpa membuang audio sebelumnya
- Untuk meningkatkan latensi i/o, perlu memakai audio API berlatensi rendah, buffer audio yang sangat pendek, serta kategori dan mode audio khusus
- Saya tidak yakin apakah TTS bisa dipakai dalam mode streaming
- Push-to-talk yang dirancang dengan baik bisa menjadi solusi yang bagus
Ada beberapa pembaruan menarik hari ini
- Inferensi 100ms menggunakan CoreML
- Model LSTM yang dilatih pada subset data
Saya mendapatkan sebagian besar jawabannya dari README. Ditulis dengan baik
Saya penasaran apakah bisa membagikan sumber daya dan jumlah yang dibutuhkan untuk melakukan fine-tuning Wav2Vec2-BERT
Saya penasaran apa itu deteksi giliran
Senang melihat teknologi ini berkembang lebih jauh
- Dari sistem suara terburuk seperti Siri sampai mode suara ChatGPT, komputer tidak terlalu bagus dalam melakukan ini
- Ini mungkin hambatan terbesar agar 'agen' bisa melakukan tugas sederhana namun berguna
- Masih banyak situasi yang sulit bagi AI, dan kesalahan seperti ini bisa menghancurkan efisiensi percakapan atau menyebabkan kegagalan fungsi yang serius
Sebagai seseorang yang didiagnosis autisme HF, saya ingin menerapkan teknologi ini pada earpiece
Setelah meninjau beberapa model berbasis giliran, implementasinya tampak sangat konsisten. Saya menantikan bagaimana teknologi ini akan berkembang
Saya harap Vedal mengintegrasikan teknologi ini ke model Neuro-sama. Contoh transformasi dari bot osu menjadi AI Vtuber
Saya penasaran apakah ini mendukung beberapa pembicara
Sedang melakukan fork

Smart-turn - Model Deteksi Giliran Audio Open Source

Bacaan terkait

1 komentar

Komentar Hacker News