- Deteksi giliran adalah salah satu fitur terpenting dalam stack AI suara, yaitu teknologi yang menentukan kapan agen suara harus merespons saat seseorang berbicara
- Sebagian besar agen suara memisahkan audio menjadi segmen suara dan non-suara berbasis VAD (Voice Activity Detection), sehingga makna akustik dan linguistik tidak tercerminkan
- Manusia melakukan deteksi giliran melalui sinyal kompleks seperti tata bahasa, intonasi, dan kecepatan bicara
- Tujuan: membangun model yang lebih dekat dengan ekspektasi manusia dibanding pendekatan berbasis VAD
- Proyek pengembangan model deteksi giliran audio berbasis open source yang digerakkan komunitas
- Lisensi BSD 2-clause → siapa pun dapat menggunakan, melakukan fork, dan berkontribusi
- Proyek ini dimulai dari ekosistem Pipecat
- Pipecat: framework AI suara dan multimodal yang open source serta independen dari vendor
- Tujuan proyek
- Tujuan tingkat tinggi
- Mudah digunakan oleh siapa saja
- Mudah diterapkan di production
- Mudah di-fine-tune sesuai aplikasi tertentu
- Keterbatasan model saat ini
- Hanya mendukung bahasa Inggris
- Kecepatan inferensi relatif lambat: sekitar 150ms di GPU, dan sekitar 1500ms di CPU
- Data pelatihan terutama berfokus pada ujaran yang tidak selesai (filler words) yang muncul di akhir segmen
- Tujuan jangka menengah
- Dukungan untuk berbagai bahasa
- Waktu inferensi: di bawah 50ms di GPU, di bawah 500ms di CPU
- Mencerminkan data pelatihan dengan nuansa suara yang lebih luas
- Membangun pipeline pembuatan data sintetis sepenuhnya
- Dukungan conditioning berbasis teks (misalnya: input kartu kredit, nomor telepon, alamat, dll.)
- Arsitektur model
- Berbasis backbone Wav2Vec2-BERT dari Meta AI (jumlah parameter: 580M)
- Menggunakan data audio pembelajaran tanpa supervisi selama 4,5 juta jam dalam 143 bahasa
- Struktur model saat ini:
- Wav2Vec2-BERT → classification head 2-layer
- Menggunakan
Wav2Vec2BertForSequenceClassification dari Hugging Face
- Arsitektur yang sedang diuji:
- Menguji apakah classifier sederhana tetap efektif saat dataset diperluas
- Meninjau kemungkinan penerapan struktur yang lebih kompleks
1 komentar
Komentar Hacker News
Pernah memakai pipecat dan itu bagus. Tetapi kemudian beralih ke sherpa-onnx yang bisa dikompilasi secara native dan dijalankan di perangkat edge
Ada beberapa pembaruan menarik hari ini
Saya mendapatkan sebagian besar jawabannya dari README. Ditulis dengan baik
Saya penasaran apakah bisa membagikan sumber daya dan jumlah yang dibutuhkan untuk melakukan fine-tuning Wav2Vec2-BERT
Saya penasaran apa itu deteksi giliran
Senang melihat teknologi ini berkembang lebih jauh
Sebagai seseorang yang didiagnosis autisme HF, saya ingin menerapkan teknologi ini pada earpiece
Setelah meninjau beberapa model berbasis giliran, implementasinya tampak sangat konsisten. Saya menantikan bagaimana teknologi ini akan berkembang
Saya harap Vedal mengintegrasikan teknologi ini ke model Neuro-sama. Contoh transformasi dari bot osu menjadi AI Vtuber
Saya penasaran apakah ini mendukung beberapa pembicara
Sedang melakukan fork