Mozilla Common Voice, platform dataset suara berbasis komunitas

(commonvoice.mozilla.org)

1 poin oleh GN⁺ 2023-12-08 | 1 komentar | Bagikan ke WhatsApp

Mozilla Common Voice adalah platform gratis dan open source yang memungkinkan komunitas membuat dan membagikan dataset teks dan suara secara langsung, agar teknologi suara bisa digunakan dalam lebih banyak bahasa
Kontributor dapat berpartisipasi dalam data Scripted Speech, Spontaneous Speech, dan Language Text melalui membaca kalimat, memvalidasi pembacaan, menjawab pertanyaan, mentranskripsikan suara, dan menambahkan teks
Platform ini mendukung komunitas dalam lebih dari 290 bahasa, dan dataset suara publik tersedia dalam lebih dari 130 bahasa
Dataset dapat digunakan untuk ASR, STT, TTS, dan kebutuhan NLP lainnya, dan rilis baru dapat diunduh dari Mozilla Data Collective
Anggota Mozilla Data Collective dapat mengakses lebih dari 500 dataset global yang dibuat dan digunakan oleh komunitas, sehingga pusat pengumpulan dan berbagi data bahasa bergeser ke sana

Apa yang ingin dipecahkan oleh Common Voice

Mozilla Common Voice adalah platform pembuatan data yang digerakkan oleh komunitas
Siapa pun dapat membagikan, membuat, dan mengkurasi dataset teks dan suara untuk melestarikan, menghidupkan kembali, dan mengembangkan bahasa mereka sendiri
Tujuannya adalah agar AI tidak hanya bekerja untuk sebagian bahasa saja, melainkan agar orang dapat membuat sendiri dataset bahasa yang mereka butuhkan
Common Voice dijalankan oleh komunitas di seluruh dunia dan terus berkembang ke lebih dari 290 bahasa

Cara berkontribusi dan pemanfaatan dataset

Scripted Speech
- Pengguna dapat berkontribusi suara dalam bahasa mereka ke dataset partisipatif publik melalui membaca kalimat
- Pengguna lain dapat memvalidasi pembacaan di Validate Readings
Spontaneous Speech
- Pengguna menjawab prompt untuk membuat dataset dengan konteks yang alami dan percakapan sehari-hari
- Ini dapat dimanfaatkan dengan cara yang cocok untuk bahasa yang mengutamakan komunikasi lisan
- Mereka dapat ikut serta dalam pekerjaan transkripsi melalui Transcribe answers dan fitur ulasan
Language Text
- Pengguna dapat membuat atau membagikan prompt, kalimat, dan teks domain publik
- Ini dapat digunakan untuk terjemahan, model bahasa kecil, dan keperluan lainnya
- Rilis baru tersedia di Mozilla Data Collective, dan dengan bergabung Anda bisa mengakses lebih dari 500 dataset global
- Di Explore datasets, Anda dapat melihat dataset suara publik dalam lebih dari 130 bahasa yang digunakan untuk ASR, STT, TTS, dan konteks NLP lainnya
- Mitra dibagi ke dalam kelompok masyarakat sipil dan peneliti, perusahaan teknologi, serta organisasi filantropi
- Masyarakat sipil dan peneliti dapat membuat, meng-host, dan membagikan dataset berdampak secara gratis
- Perusahaan teknologi dapat berinvestasi dalam pembuatan dataset terbuka untuk ekosistem AI multibahasa
- Organisasi filantropi dapat mendukung pembuatan dataset untuk inovasi dan pengembangan lokal

1 komentar

GN⁺ 2023-12-08

Komentar Hacker News

TTS di Firefox adalah proyek penting bagi orang yang membutuhkan sistem text-to-speech yang mudah digunakan
Karena tertanam di browser, cukup jalankan window.speechSynthesis dan SpeechSynthesisUtterance di konsol untuk langsung mendengarkan berbagai contoh suara
Bergantung pada browser, fitur ini kadang berjalan secara offline, dan kadang menggunakan TTS berbasis cloud
- Di macOS, ini bisa dilakukan dengan say "enter text here", dan untuk memilih suara lain gunakan say -v Fred "enter text here", daftar suara bisa dilihat dengan say -v "?"
  Tanda kutip diperlukan agar ? tidak ditafsirkan sebagai glob oleh ZSH
  Meski TTS Firefox penting, sampai komentar ini saya bahkan tidak tahu fitur itu ada, dan fitur seperti ini seharusnya punya API yang lebih mudah ditemukan dan lebih aksesibel
- speechSynthesis tampaknya didukung bukan hanya oleh Firefox tetapi juga browser utama lainnya: https://developer.mozilla.org/en-US/docs/Web/API/Window/spee...
- Beberapa hari lalu saya mencoba Common Voice, dan saya menyukai contoh halaman komunitas untuk orang-orang yang ingin membantu bahasa tertentu
  Saya juga sedang berpikir Firefox sudah cukup cepat untuk dipakai lagi, dan jika Anda merasa browser independen yang menekankan privasi, keamanan, dan kemandirian itu penting, orang yang suka gonta-ganti browser pun layak mencoba Firefox
  Saya juga senang bisa kembali memakai beberapa ekstensi Firefox yang tidak bekerja sama persis di browser berbasis Chrome
- Untuk debugging, saya pernah membuat pesan penting yang tidak boleh terlewat dibacakan melalui suara TTS gratis di Windows dengan PowerShell, atau dipanggil lewat WebSocket di Chrome, dan itu cukup menyenangkan
  Semakin banyak pilihan suara tentu bagus
- Saya penasaran apakah ini pernah dipisahkan menjadi library independen
  Kondisi TTS open source tampaknya tidak terlalu bagus, dan data yang dibutuhkan untuk satu suara rasanya lebih sulit dikumpulkan daripada untuk melatih sistem pengenalan suara seperti Whisper
Common Voice Android juga layak direkomendasikan: https://github.com/Sav22999/common-voice-android
Ini aplikasi yang praktis bagi orang yang ingin berkontribusi ke proyek tersebut, dan Anda bisa merekam suara dalam bahasa yang Anda kuasai atau memverifikasi kontribusi pengguna lain
Saya sering berkontribusi sekitar 2 tahun lalu, dan desainnya jauh lebih mudah dipakai daripada situs web resmi
Ada juga kanal Matrix resmi Common Voice: https://chat.mozilla.org/#/room/#common-voice:mozilla.org
Melihat perkembangan terbaru AI dan deepfake, rasanya perlu ada tingkat jaminan tertentu sebelum “menyumbangkan suara saya” ke tempat seperti ini
Proyek ini tampaknya untuk pengenalan suara, bukan pembuatan suara, tetapi pada pandangan pertama itu tidak terlalu jelas
- Saya tidak yakin “jaminan” adalah kata yang tepat, tetapi di sekitar machine learning dan model generatif, sikap terhadap penghormatan atas milik orang lain tampak cukup longgar, jadi frasa “sumbangkan suara Anda” terasa mengganggu
  Mozilla mungkin organisasi yang tepat untuk ini, tetapi produk utamanya sedang menurun, dan jika organisasinya lenyap saya tidak tahu apa yang akan terjadi pada data itu
  Organisasi yang sekarat cenderung dijual sepotong demi sepotong, dan data ini bisa menjadi kekayaan intelektual yang menarik bagi banyak perusahaan dengan tujuan yang jauh kurang mulia
- Saya penasaran jaminan seperti apa yang ingin Anda lihat
Dataset crowdsourcing seperti ini dan dataset yang dibuat proyek OpenAssistant bisa menjadi hampir satu-satunya cara untuk membuat model dasar jika pengadilan memutuskan bahwa tindakan perusahaan seperti OpenAI bukanlah fair use
Saya juga tidak menganggap skenario seperti itu terlalu kecil kemungkinannya
Dataset ini beberapa orde magnitudo lebih kecil daripada data yang dipakai model suara terbaru seperti Whisper atau Seamless untuk pelatihan, dan meskipun ditujukan untuk supervised learning, bukan self-supervised learning yang datanya lebih kaya, tetap bisa berguna
Dataset ini bisa dipakai untuk fine-tuning model yang sudah ada agar mendapat skor lebih baik pada bahasa tertentu
Seingat saya Mozilla dulu juga punya perangkat lunak pengenalan suara terkait, lalu dihentikan atau dipindahkan ke perusahaan lain
- Maksud Anda DeepSpeech? https://github.com/mozilla/DeepSpeech
- Ini adalah dataset terbuka berisi sampel suara untuk pelatihan model, jadi secara teknis bukan perangkat lunak pengenalan suara atau TTS
Luar biasa
Salah satu hal yang saya harapkan dari OpenAI dulu adalah menjadi organisasi yang benar-benar terbuka
Saya mengharapkan dataset terbuka, kode terbuka, model terbuka, dan evaluasi terbuka, tetapi sekarang ia telah menjadi boneka Microsoft yang bergerak mengikuti tujuan keuntungan perusahaan
Menyenangkan melihat proyek seperti ini dan HuggingFace, dan saya berharap HuggingFace tidak diakuisisi Microsoft seperti GitHub
Kalau begitu, saya tidak mengerti kenapa text2speech di mode baca Firefox Linux begitu buruk
Mode bacanya sendiri luar biasa, tetapi kualitas suaranya jauh lebih buruk daripada text-to-speech milik Stephen Hawking
Tulisan HN terkait:
Mozilla Common Voice Adds 16 New Languages and 4,600 New Hours of Speech - https://news.ycombinator.com/item?id=28073016 - Agustus 2021, 170 komentar
Firefox Voice - https://news.ycombinator.com/item?id=24096082 - Agustus 2020, 154 komentar
Firefox Voice: Browse the web with your voice - https://news.ycombinator.com/item?id=23902560 - Juli 2020, 2 komentar
Mozilla Common Voice Dataset: More data, more languages - https://news.ycombinator.com/item?id=23695377 - Juni 2020, 41 komentar
The Common Voice Project by Mozilla reached its first goal: 1k hours in englisch - https://news.ycombinator.com/item?id=23051756 - Mei 2020, 1 komentar
Common Voice: A Massively-Multilingual Speech Corpus - https://news.ycombinator.com/item?id=21887693 - Desember 2019, 9 komentar
Common Voice – Mozilla's initiative to help teach machines how real people speak - https://news.ycombinator.com/item?id=21268579 - Oktober 2019, 49 komentar
Mozilla releases the largest to-date public domain transcribed voice dataset - https://news.ycombinator.com/item?id=19270646 - Februari 2019, 61 komentar
Mozilla Overhauls Speech-To-Text Contribution Interface - https://news.ycombinator.com/item?id=17436958 - Juli 2018, 42 komentar
Initial Release of Mozilla’s Open Source Speech Recognition Model and Voice Data - https://news.ycombinator.com/item?id=15808124 - November 2017, 88 komentar
Project Common Voice - https://news.ycombinator.com/item?id=14794654 - Juli 2017, 57 komentar
Mozilla: Project Common Voice - https://news.ycombinator.com/item?id=14786881 - Juli 2017, 1 komentar
Saya penasaran berapa banyak orang yang memiliki suara berbeda antara saat berbicara sehari-hari dan suara saat membaca
Jika sebagian besar data pelatihan adalah suara “membaca naskah”, apakah model percakapan juga bisa dilatih dengan baik?
- Ketika tim Mozilla Common Voice meminta masukan sebelum memulai, saya mengangkat masalah itu dan mengusulkan pendekatan lain untuk mengumpulkan data suara percakapan, tetapi tidak diadopsi
  Keyakinan bahwa data yang banyak tetapi kasar lebih baik daripada data yang sedikit namun sesuai dengan masalah yang benar-benar ingin dipecahkan ternyata cukup luas

Mozilla Common Voice, platform dataset suara berbasis komunitas

Apa yang ingin dipecahkan oleh Common Voice

Cara berkontribusi dan pemanfaatan dataset

Scripted Speech

Spontaneous Speech

Language Text

Bacaan terkait

1 komentar

Komentar Hacker News