1 poin oleh GN⁺ 2023-12-08 | 1 komentar | Bagikan ke WhatsApp

Pengenalan proyek Mozilla Common Voice

  • Mozilla Common Voice adalah proyek yang membantu mesin mempelajari bagaimana orang sungguhan berbicara.
  • Untuk membuat teknologi suara dapat digunakan, para pengembang membutuhkan data suara dalam jumlah sangat besar.
  • Sebagian besar data digunakan oleh perusahaan besar dan tidak dapat diakses oleh mayoritas orang, yang dianggap menghambat inovasi.

Status perekaman dan verifikasi data suara

  • Hingga saat ini, 29.000 jam suara telah direkam, dan 18.000 jam di antaranya telah diverifikasi.

Dukungan untuk berbagai bahasa

  • Proyek Common Voice mendukung beragam bahasa di seluruh dunia, dan pengguna dapat berkontribusi dalam bahasa mereka sendiri.

Dukungan untuk membangun dataset terbuka berkualitas tinggi

  • Anda dapat berkontribusi tanpa membuat profil, tetapi juga dapat memperkaya data yang dikirimkan dengan memberikan data demografis anonim.
  • Informasi profil membantu meningkatkan kualitas data audio yang digunakan untuk melatih akurasi pengenalan suara.
  • Pengguna dapat melacak kemajuan dan metrik mereka di berbagai bahasa.
  • Anda dapat membandingkan kemajuan dengan kontributor lain di seluruh dunia.
  • Anda dapat memeriksa kemajuan terhadap tujuan pribadi dan tujuan proyek.
  • Jika mau, Anda dapat secara opsional bergabung ke daftar email untuk pembaruan proyek dan informasi baru.

Opini GN⁺

Hal terpenting dalam artikel ini adalah bahwa Mozilla memulai proyek Common Voice untuk menyediakan data suara berskala besar yang dibutuhkan para pengembang yang ingin mengembangkan teknologi pengenalan suara. Proyek ini menunjukkan upaya Mozilla untuk mendorong inovasi teknologi, dan dengan mendukung berbagai bahasa di seluruh dunia, proyek ini memberi banyak orang kesempatan untuk berkontribusi pada kemajuan teknologi. Ini mencerminkan filosofi Mozilla yang mengejar demokratisasi teknologi dan akan menjadi inisiatif yang menarik serta memikat bagi banyak orang.

1 komentar

 
GN⁺ 2023-12-08
Opini Hacker News
    • TTS milik FF adalah proyek penting bagi orang-orang yang menginginkan sistem text-to-speech yang mudah digunakan. Karena sudah tertanam di browser, berbagai contoh TTS bisa didengarkan dengan menjalankan kode sederhana di konsol. Beberapa browser bahkan bisa melakukannya secara offline, sementara browser lain menggunakan sistem TTS berbasis cloud.
    • Common Voice Android adalah aplikasi yang berguna bagi orang-orang yang ingin berkontribusi pada proyek ini. Pengguna dapat merekam suara dalam bahasa yang mereka kuasai dan memverifikasi kontribusi dari pengguna lain. Desainnya juga lebih ramah pengguna dibanding versi situs web resmi.
    • Dataset crowdsourcing bisa menjadi satu-satunya cara untuk membangun foundation model jika pengadilan memutuskan bahwa tindakan perusahaan seperti OpenAI tidak termasuk fair use. Saya tidak menganggap kemungkinan skenario seperti ini rendah.
    • Dataset ini jauh lebih kecil dibanding yang digunakan untuk melatih model suara terbaru, tetapi ini ditujukan untuk supervised learning, bukan self-supervised learning, dan tetap berguna untuk fine-tuning guna meningkatkan performa model pada bahasa tertentu.
    • Mengingat berbagai insiden terbaru terkait AI dan teknologi deepfake, diperlukan jaminan tertentu sebelum menyetujui untuk 'mendonorkan suara saya' pada proyek seperti ini. Tidak jelas apakah proyek ini ditujukan untuk pengenalan suara atau untuk generasi suara.
    • Saya penasaran apakah Mozilla pernah membatalkan perangkat lunak speech-to-text terkait atau memindahkannya ke perusahaan lain. Atau apakah itu sesuatu yang berbeda?
    • Mengapa fitur text-to-speech di mode pembaca Firefox pada Linux sangat buruk? Jauh lebih buruk daripada text-to-speech milik Stephen Hawking.
    • Saya berharap OpenAI benar-benar terbuka, tetapi sekarang justru menjadi boneka Microsoft yang mengejar tujuan keuntungan korporat. Proyek seperti ini dan HuggingFace enak dilihat, dan semoga HuggingFace tidak diakuisisi Microsoft seperti GitHub.
    • Di antara orang-orang di sini, berapa banyak yang memiliki 'suara membaca' yang berbeda dari suara percakapan sehari-hari? Jika sebagian besar data pelatihan terdengar seperti 'membaca naskah', apakah model percakapan bisa dilatih?
    • Tautan berita terkait juga disediakan, yang memberikan informasi tentang perkembangan proyek Mozilla Common Voice dan perluasan dataset suara.