- Sedang melanjutkan "Inisiatif 1.000 Bahasa" yang dimulai pada November tahun lalu (membuat model machine learning yang mendukung 1.000 bahasa)
- Saat ini, USM dilatih dengan 2B (2 miliar) parameter, lebih dari 300 bahasa, 12 juta jam suara, dan 28 miliar kalimat
- Digunakan di YouTube untuk pembuatan subtitle. Mendukung bukan hanya bahasa Inggris/Tionghoa, tetapi juga bahasa seperti Amharic, Cebuano, Assamese, dan Azerbaijani
- Dua tantangan penting untuk mencapai tujuan
- Metode supervised learning yang ada kurang skalabel
- Membuat model secara efisien untuk menambah jumlah bahasa
- Pendekatan: self-supervised learning with fine-tuning (pembelajaran mandiri dengan fine-tuning)
- Makalah dan API (hanya peneliti yang dapat mendaftar) telah dipublikasikan
1 komentar
Saya rasa ini adalah teknologi yang baik agar bahasa dan dialek yang perlahan menghilang tetap bisa digunakan oleh generasi mendatang.