OpenVoice: Teknologi Kloning Suara Instan
(github.com/myshell-ai)Pengenalan OpenVoice V1
- Keunggulan OpenVoice adalah sebagai berikut:
- Replikasi timbre suara yang akurat: OpenVoice dapat mereplikasi timbre suara referensi secara akurat dan menghasilkan suara dalam berbagai bahasa serta aksen.
- Kontrol gaya suara yang fleksibel: OpenVoice memungkinkan kontrol yang rinci terhadap gaya suara seperti emosi dan intonasi, serta parameter gaya lainnya seperti ritme, jeda, dan prosodi.
- Kloning suara multibahasa zero-shot: Baik bahasa suara yang dihasilkan maupun bahasa suara referensi tidak harus telah disajikan dalam dataset pelatihan multibahasa berskala besar untuk banyak penutur.
Pengenalan OpenVoice V2
- Pada April 2024, OpenVoice V2 dirilis, mencakup semua fitur V1 dan menambahkan fitur berikut:
- Kualitas audio yang lebih baik: OpenVoice V2 mengadopsi strategi pelatihan lain yang memberikan kualitas audio lebih baik.
- Dukungan multibahasa bawaan: Bahasa Inggris, Spanyol, Prancis, Mandarin, Jepang, dan Korea didukung secara bawaan di OpenVoice V2.
- Gratis untuk penggunaan komersial: Sejak April 2024, V2 dan V1 dirilis di bawah lisensi MIT, sehingga bebas digunakan secara komersial.
Status penggunaan OpenVoice
- OpenVoice telah menyediakan fitur kloning suara instan di myshell.ai sejak Mei 2023.
- Hingga November 2023, model kloning suara telah digunakan puluhan juta kali oleh pengguna di seluruh dunia, dan platform tersebut menyaksikan pertumbuhan pengguna yang eksplosif.
Kontributor utama
- Zengyi Qin (MIT, MyShell)
- Wenliang Zhao (Tsinghua University)
- Xumin Yu (Tsinghua University)
- Ethan Sun (MyShell)
Cara penggunaan
- Untuk cara penggunaan yang lebih rinci, lihat usage.
Isu umum
- Untuk pertanyaan dan jawaban umum, lihat QA.
- Daftar tanya jawab akan diperbarui secara berkala.
Partisipasi komunitas
- Bergabunglah dengan komunitas Discord, dan saat bergabung pilih peran 'Developer' untuk mendapatkan akses eksklusif ke kanal khusus pengembang.
- Jangan lewatkan diskusi bermanfaat dan peluang kolaborasi.
Kutipan
- Implementasi ini didasarkan pada beberapa proyek unggulan seperti TTS, VITS, dan VITS2.
- Terima kasih atas karya luar biasa mereka.
Lisensi
- OpenVoice V1 dan V2 menggunakan lisensi MIT, dan gratis untuk penggunaan komersial maupun penelitian.
Opini GN⁺
-
OpenVoice adalah alat yang kuat untuk dengan mudah menghasilkan suara dalam berbagai bahasa dan emosi. Ini tampaknya dapat dimanfaatkan di berbagai bidang seperti film, animasi, dan game.
-
Namun, karena suara dapat dikloning dengan terlalu mudah, ada potensi penyalahgunaan. Misalnya, masalah seperti pembuatan video deepfake dengan menggunakan suara tokoh terkenal tanpa izin dapat terjadi. Tampaknya perlu disiapkan langkah penanggulangannya.
-
Produk komersial dengan fungsi serupa OpenVoice antara lain Lyrebird, Resemble.ai, dan Descript. Produk-produk ini terutama digunakan untuk dukungan pelanggan, call center, dan dubbing video.
-
Saat mengadopsi OpenVoice, perlu memperhatikan keamanan data dan masalah hak cipta. Selain itu, naturalitas suara yang dihasilkan dan akurasi pelafalan juga perlu dipastikan.
-
Karena dirilis sebagai open source, diharapkan kinerjanya akan terus meningkat melalui partisipasi berbagai pengembang. Menarik untuk melihat apakah kualitas suara dan fiturnya dapat mencapai level produk komersial.
1 komentar
Komentar Hacker News