Mozilla Common Voice
(voice.mozilla.org)Basis data suara open-source yang mengumpulkan dan memurnikan data dari berbagai bahasa untuk membangun teknologi pengenalan suara yang dapat digunakan oleh siapa saja, serta membuatnya tersedia untuk dipakai.
Bahasa Korea masih sangat kekurangan data. Mari ikut berpartisipasi dan membangunnya bersama.
Sebagian besar dataset suara yang dibuat oleh perusahaan sulit digunakan oleh pihak luar.
Karena itu, data yang dibuat secara terbuka sangat penting. Terutama untuk bahasa Korea, hal ini jauh lebih penting lagi.
7 komentar
Di bagian pengaturan Goal tidak ada bahasa Korea, jadi saya tidak bisa melanjutkannya..
Jadi, ternyata dataset bahasa Korea belum bisa karena pelokalan situs kalimat atau kumpulan kalimatnya masih kurang.
Terjemahan bahasa Indonesia untuk situs: https://pontoon.mozilla.org/projects/common-voice/
Situs pengumpulan kalimat: https://common-voice.github.io/sentence-collector
Sepertinya setelah terjemahan situs selesai dan lebih dari 5.000 kalimat terkumpul, pengumpulan dan verifikasi suara baru bisa dilakukan. Mohon partisipasi aktif dari teman-teman yang berminat.
Saya tadi sempat menulis komentar yang sama lalu menghapusnya haha
https://discourse.mozilla.org/t/…
Di situ memang dijelaskan seperti itu.
Ah.. iya haha saya juga sempat mau menghapusnya, tapi karena tidak ada tombol hapus jadi bingung..
Terkait itu, sepertinya ada beberapa korpus bahasa Korea, tapi saya tidak tahu apakah boleh diunggah karena masalah hak cipta.
Ah, untuk menghapus komentar, Anda bisa menekan tautan waktu di samping ID pada komentar, lalu menghapusnya dari halaman komentar tersebut.
Open source pengenalan suara bahasa Korea yang sebelumnya sudah dirilis juga mencakup proyek Zeroth yang menggunakan Kaldi.
(Dari isi GitHub, tampaknya model terakhir adalah versi Juli 2018.)
https://github.com/goodatlas/zeroth