Google Universal Speech Model - model untuk pengenalan suara semua bahasa

xguru · 2023-03-31T10:02:02+09:00

Model dengan 2 miliar parameter, dilatih dengan 12 juta jam audio, 28 miliar kalimat, dan 300 bahasa Mampu melakukan pengenalan suara untuk semua bahasa, dari bahasa yang sudah dikenal luas hingga bahasa yang digunakan oleh minoritas Termasuk bahasa-bahasa yang digunakan oleh kurang dari 20 juta orang sehingga sulit menemukan data pelatihan Hasil evaluasi menggunakan video YouTube menunjukkan tingkat kesalahan kata yang lebih rendah dibandingkan Whisper (OpenAI)

(sites.research.google)

17 poin oleh xguru 2023-03-31 | 1 komentar | Bagikan ke WhatsApp

Model dengan 2 miliar parameter, dilatih dengan 12 juta jam audio, 28 miliar kalimat, dan 300 bahasa
Mampu melakukan pengenalan suara untuk semua bahasa, dari bahasa yang sudah dikenal luas hingga bahasa yang digunakan oleh minoritas
- Termasuk bahasa-bahasa yang digunakan oleh kurang dari 20 juta orang sehingga sulit menemukan data pelatihan
Hasil evaluasi menggunakan video YouTube menunjukkan tingkat kesalahan kata yang lebih rendah dibandingkan Whisper (OpenAI)

1 komentar

xguru 2023-03-31

Whisper - sistem pengenalan suara multibahasa (ASR) yang dirilis OpenAI sebagai open source
OpenAI merilis model Whisper v2

Meski dikatakan performanya bagus, yang dipublikasikan hanya paper dan API. Jadi, Whisper yang dirilis sebagai open source tampaknya masih lebih berguna untuk pemanfaatan nyata.

Google Universal Speech Model - model untuk pengenalan suara semua bahasa

Bacaan terkait

1 komentar