OpenVoice: Teknologi Kloning Suara Instan
(github.com/myshell-ai)- OpenVoice adalah proyek kloning suara instan yang menyalin timbre referensi untuk menghasilkan suara dalam berbagai bahasa dan aksen, serta telah merilis fitur V1 dan V2
- V1 mendukung kloning timbre yang akurat, kontrol gaya suara seperti emosi, intonasi, ritme, jeda, dan perubahan nada, serta kloning suara lintas bahasa zero-shot
- OpenVoice V2 dirilis pada April 2024, mencakup fitur V1 sekaligus memberikan kualitas audio yang lebih baik dengan strategi pelatihan yang berbeda
- V2 mendukung bahasa Inggris, Spanyol, Prancis, Tiongkok, Jepang, dan Korea secara multibahasa native, dan baik V1 maupun V2 tersedia gratis untuk penggunaan komersial dan riset dengan lisensi MIT
- OpenVoice telah digunakan untuk fitur kloning suara instan di myshell.ai sejak Mei 2023, dan hingga November 2023 telah digunakan puluhan juta kali oleh pengguna di seluruh dunia
Fitur kloning suara yang ditawarkan OpenVoice
- OpenVoice adalah proyek untuk kloning suara instan
- Makalah terkait tersedia sebagai makalah arXiv
Fitur utama OpenVoice V1
-
Kloning timbre yang akurat
- Dapat menyalin timbre referensi secara akurat
- Dapat menghasilkan suara dalam berbagai bahasa dan aksen
-
Kontrol gaya suara yang fleksibel
- Dapat mengontrol emosi dan intonasi secara rinci
- Parameter gaya seperti ritme, jeda, dan perubahan intonasi juga dapat dikendalikan
-
Kloning suara lintas bahasa zero-shot
- Bahasa suara hasil generasi maupun bahasa suara referensi tidak harus termasuk dalam dataset pelatihan multibahasa multi-penutur berskala besar
Perubahan di OpenVoice V2
- OpenVoice V2 dirilis pada April 2024
- V2 mencakup semua fitur V1
- Dengan mengadopsi strategi pelatihan yang berbeda, V2 memberikan kualitas audio yang lebih baik
- Mendukung bahasa Inggris, Spanyol, Prancis, Tiongkok, Jepang, dan Korea secara native
- Sejak April 2024, baik V2 maupun V1 dirilis dengan MIT License, sehingga gratis untuk penggunaan komersial
Penggunaan nyata dan cakupan rilis
- OpenVoice telah menggerakkan fitur kloning suara instan milik myshell.ai sejak Mei 2023
- Hingga November 2023, model kloning suara ini telah digunakan puluhan juta kali oleh pengguna di seluruh dunia
- README menyertakan demo Video
1 komentar
Komentar Hacker News
Beberapa hari terakhir juga ada kejadian seperti ini: polisi mengatakan bahwa kepala bagian olahraga membuat klip suara palsu dengan AI untuk menuduh kepala sekolah mengucapkan komentar rasis
https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c
tentu saja kebanyakan orang tetap tidak akan melakukan cek fakta
Kita telah memasuki masa ketika hukum dan penegakannya harus mengejar dengan sangat cepat
bukti sejarah palsu, kebocoran palsu, deklarasi dukungan palsu, sampai iklan palsu semuanya menjadi mungkin
Orang-orang saja sudah malas memverifikasi posting teks apa pun di Facetok, jadi ke depan sepertinya akan jauh lebih buruk
Saya sudah lama bilang ke teman-teman bahwa 5~10 tahun lagi, satu-satunya hal yang bisa hampir 100% dipercaya adalah yang terjadi langsung di depan mata
Kita masih bisa memilih media tepercaya untuk memverifikasi, tetapi karena polarisasi, sebagian besar dunia akan menganggap semuanya sudah terkontaminasi lalu menyapu bersih semuanya sebagai palsu
Lihat saja Sora atau model suara baru. Beberapa hari lalu pun ada pelatih olahraga SMA yang ditangkap karena meniru suara kepala sekolah dan membuatnya mengucapkan hal-hal mengerikan, lalu ketahuan karena memakai emailnya sendiri
Kalau ini digabung dengan fakta bahwa model baru Phi-mini dari Microsoft, dengan 3,8 miliar parameter, mendekati performa GPT-3.5, itu jadi lebih menakutkan. GPT-3.5 punya 175 miliar parameter, dan optimisasi teknologi ini baru berjalan sekitar 5 tahun
Saya ingin turun dari wahana gila Mr Bones
Sulit memprediksi bagaimana risiko AI generatif yang merusak kepercayaan akan berkembang, tetapi saya tetap optimistis bahwa kreativitas manusia pada akhirnya akan menang
Dengan latihan, meniru gaya bicara orang lain juga tidak terlalu sulit, dan itu hal yang biasa dilakukan aktor amatir maupun profesional
Yang berubah hanya bahwa pekerjaan itu kini jadi lebih mudah, dan justru seharusnya membantu semua orang memahami betapa sulitnya mempercayai “bukti” semacam itu
Android dan iOS seharusnya mendukung pengubah suara real-time sebagai fitur bawaan, dengan tombol cepat untuk mematikannya di dialer dan opsi untuk menonaktifkannya bagi kontak yang dikenal
Akan ada penggunaan yang benar-benar mengganggu, tetapi perbedaan antara hal yang baru dimungkinkan oleh teknologi ini dan hal yang sebenarnya sudah mungkin dilakukan dari dulu jauh lebih kecil daripada yang orang-orang katakan
Ini bukan kloning, lebih mirip menyalin timbre suara. Bahkan dokumennya juga menuliskannya begitu, tetapi tetap saja disebut voice cloning
Setelah saya coba sendiri, hasilnya terdengar seperti orang Amerika, bukan aksen Lancashire saya yang biasanya lembut, dan sama sekali tidak terdengar seperti saya
VoiceShopAi bisa mengubah suara muda menjadi suara tua, pria menjadi wanita, atau ke aksen negara mana pun
Saya menemukannya di https://github.com/metame-ai/awesome-audio-plaza, yang melacak entri-entri baru di bidang audio
Apa sebenarnya kasus penggunaan yang sah untuk teknologi ini? Saya bisa memikirkan seratus cara untuk menipu orang lain, tetapi sulit membayangkan situasi di mana seseorang ingin mengkloning atau merekonstruksi suaranya sendiri
Pengembang game indie juga bisa membuat NPC yang hidup, masing-masing dengan suara unik, dengan dialog yang digerakkan oleh model bahasa besar
Dalam produksi film, dialog tertentu juga bisa disesuaikan dengan persetujuan aktor
Ini juga dibutuhkan oleh orang yang perlahan kehilangan suara karena masalah kesehatan tetapi tetap ingin berkomunikasi
Jelas ada kasus penggunaan yang sah untuk teknologi ini. Secara pribadi saya merasa penggunaan yang tidak sah akan melampaui penggunaan yang sah, tetapi tidak adil mengatakan tidak ada aplikasi yang sah sama sekali
Penyalahgunaannya harus dikriminalisasi dan diatur ketat, bukan dilarang total. Untuk perangkat lunak dan model kecil, pelarangan juga cukup sulit
Audiobook juga bisa dibacakan dengan suara berbeda untuk tiap karakter, alih-alih satu narator yang memaksakan akting
Ini juga bisa dipakai saat sedang flu tetapi ingin berpidato tanpa batuk
Untuk transmisi audio berbandwidth rendah, cukup kirim teks lalu putar ulang dengan model suara lokal
Bisa juga dipakai untuk bercakap-cakap dengan orang tercinta yang sudah meninggal
Atau untuk hal lucu dan komedi
Dengan asumsi terjemahannya sempurna dan tidak dipakai untuk tujuan jahat, menurut saya itu aplikasi yang selalu berguna dan sama sekali tidak jahat
Kalau dari rekaman suara lamanya setidaknya bisa mengembalikan sebagian “suaranya” sendiri, dia pasti akan sangat menyukainya
Sayangnya saya belum pernah melihat alat yang membuatkan model suara yang bisa ditanamkan ke Android TTS yang dia pakai atau ke Windows
Kalau ingin terus mengikuti bidang ini, sebaiknya ke mana? Saya tertarik karena ingin berkarya dengan alat seperti ini, tetapi suara saya sendiri tidak terlalu cocok untuk penggunaan seperti itu
Untuk membuatnya terdengar lebih alami, sepertinya konversi suara-ke-suara akan lebih baik daripada text-to-speech. Saya sudah sedikit mencoba alat seperti RVC, tetapi rasanya ada banyak alur kerja hebat yang saya lewatkan di tengah kebisingan AI
Saya terutama penasaran dengan alur kerja yang menarik dan orang-orang yang membuat hal-hal seru dengan AI
Ada cukup banyak narasi kiamat dan drama yang dibesar-besarkan di sini. Dibandingkan metode AI kloning suara yang sudah bisa dipakai secara terbuka sejak sekitar setahun lalu, apa yang membuat rilis kali ini begitu jauh lebih buruk?
Saya benar-benar menantikan audiobook yang dibacakan dengan suara penulis lewat kloning suara
Tentu tidak akan sebaik jika penulis membacakannya sendiri, tetapi ada sesuatu pada suara penulis yang tidak bisa diberikan oleh pengisi suara. Pengisi suara terasa pengucapannya terlalu umum dan berlebihan, jadi secara pribadi saya merasa kurang terhubung
AI tidak akan bisa melakukan itu. Sehebat apa pun nantinya, AI tidak bisa membaca pikiran penulis. Hasilnya akan lebih generik daripada pembaca manusia
Pengisi suara terlatih jauh lebih bagus, dan juga bisa menyesuaikan suaranya dengan suasana
Kalau autobiografi, masuk akal, tetapi dalam kasus seperti itu biasanya penulisnya memang sudah membacakannya sendiri
Mungkin kalau alat seperti Descript dipakai setelah narasi untuk menyesuaikan pengucapan oleh penulis, itu lain cerita, tetapi saya tidak menginginkan suara penulis
Saya tertarik melatih model dengan suara Allyson Johnson untuk menarasikan buku-buku Honor Harrington, dan merekam ulang 1–2 buku spin-off yang memakai narator lain. Narator itu buruk sekali
Ini juga mungkin bisa dipakai untuk merapikan bagian dalam seri Wheel of Time yang memakai dua narator yang sama tetapi mengubah pengucapan berbagai nama dan kata dari satu buku ke buku lain. Terutama “Moghedien”
Setidaknya diucapkan dengan tiga cara: Mo-gid-e-on, Mo-ga-dean, Mog-a-din
Selain itu, tanpa AI ada puluhan ribu buku yang tidak akan pernah terbit dalam format audio
Terkait: https://github.com/topics/voice-clone
Setiap kali saya mencoba sejauh ini, hasilnya tidak terdengar seperti suara saya sebagai target maupun suara sumbernya, melainkan seperti suara baru acak
Saya memang melihat beberapa notebook Python, tetapi akan lebih baik kalau README-nya punya contoh kode