Google Universal Speech Model - model untuk pengenalan suara semua bahasa
(sites.research.google)- Model dengan 2 miliar parameter, dilatih dengan 12 juta jam audio, 28 miliar kalimat, dan 300 bahasa
- Mampu melakukan pengenalan suara untuk semua bahasa, dari bahasa yang sudah dikenal luas hingga bahasa yang digunakan oleh minoritas
- Termasuk bahasa-bahasa yang digunakan oleh kurang dari 20 juta orang sehingga sulit menemukan data pelatihan
- Hasil evaluasi menggunakan video YouTube menunjukkan tingkat kesalahan kata yang lebih rendah dibandingkan Whisper (OpenAI)
1 komentar
Whisper - sistem pengenalan suara multibahasa (ASR) yang dirilis OpenAI sebagai open source
OpenAI merilis model Whisper v2
Meski dikatakan performanya bagus, yang dipublikasikan hanya paper dan API. Jadi, Whisper yang dirilis sebagai open source tampaknya masih lebih berguna untuk pemanfaatan nyata.