OpenVoice: Teknologi Kloning Suara Instan

(github.com/myshell-ai)

5 poin oleh GN⁺ 2024-04-28 | 1 komentar | Bagikan ke WhatsApp

OpenVoice adalah proyek kloning suara instan yang menyalin timbre referensi untuk menghasilkan suara dalam berbagai bahasa dan aksen, serta telah merilis fitur V1 dan V2
V1 mendukung kloning timbre yang akurat, kontrol gaya suara seperti emosi, intonasi, ritme, jeda, dan perubahan nada, serta kloning suara lintas bahasa zero-shot
OpenVoice V2 dirilis pada April 2024, mencakup fitur V1 sekaligus memberikan kualitas audio yang lebih baik dengan strategi pelatihan yang berbeda
V2 mendukung bahasa Inggris, Spanyol, Prancis, Tiongkok, Jepang, dan Korea secara multibahasa native, dan baik V1 maupun V2 tersedia gratis untuk penggunaan komersial dan riset dengan lisensi MIT
OpenVoice telah digunakan untuk fitur kloning suara instan di myshell.ai sejak Mei 2023, dan hingga November 2023 telah digunakan puluhan juta kali oleh pengguna di seluruh dunia

Fitur kloning suara yang ditawarkan OpenVoice

OpenVoice adalah proyek untuk kloning suara instan
Makalah terkait tersedia sebagai makalah arXiv

Fitur utama OpenVoice V1

Kloning timbre yang akurat
- Dapat menyalin timbre referensi secara akurat
- Dapat menghasilkan suara dalam berbagai bahasa dan aksen
Kontrol gaya suara yang fleksibel
- Dapat mengontrol emosi dan intonasi secara rinci
- Parameter gaya seperti ritme, jeda, dan perubahan intonasi juga dapat dikendalikan
Kloning suara lintas bahasa zero-shot
- Bahasa suara hasil generasi maupun bahasa suara referensi tidak harus termasuk dalam dataset pelatihan multibahasa multi-penutur berskala besar

Perubahan di OpenVoice V2

OpenVoice V2 dirilis pada April 2024
V2 mencakup semua fitur V1
Dengan mengadopsi strategi pelatihan yang berbeda, V2 memberikan kualitas audio yang lebih baik
Mendukung bahasa Inggris, Spanyol, Prancis, Tiongkok, Jepang, dan Korea secara native
Sejak April 2024, baik V2 maupun V1 dirilis dengan MIT License, sehingga gratis untuk penggunaan komersial

Penggunaan nyata dan cakupan rilis

OpenVoice telah menggerakkan fitur kloning suara instan milik myshell.ai sejak Mei 2023
Hingga November 2023, model kloning suara ini telah digunakan puluhan juta kali oleh pengguna di seluruh dunia
README menyertakan demo Video

Penggunaan, lisensi, dan proyek dasar

Cara penggunaan yang lebih rinci dijelaskan dalam dokumen usage di repositori
Pertanyaan dan jawaban umum dibahas dalam dokumen QA di repositori
OpenVoice V1 dan V2 berlisensi MIT License, dan gratis untuk penggunaan komersial maupun riset
Implementasinya dibangun berdasarkan TTS, VITS, VITS2

1 komentar

GN⁺ 2024-04-28

Komentar Hacker News

Beberapa hari terakhir juga ada kejadian seperti ini: polisi mengatakan bahwa kepala bagian olahraga membuat klip suara palsu dengan AI untuk menuduh kepala sekolah mengucapkan komentar rasis
https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c
- Karena itu teknologi ini harus dibuat luas digunakan dan dikenal. Orang-orang harus jadi lebih waspada, tidak langsung percaya apa pun, dan memeriksa sumbernya
  tentu saja kebanyakan orang tetap tidak akan melakukan cek fakta
Kita telah memasuki masa ketika hukum dan penegakannya harus mengejar dengan sangat cepat
bukti sejarah palsu, kebocoran palsu, deklarasi dukungan palsu, sampai iklan palsu semuanya menjadi mungkin
Orang-orang saja sudah malas memverifikasi posting teks apa pun di Facetok, jadi ke depan sepertinya akan jauh lebih buruk
- Ini terlihat seperti arus dari hipernormalisasi menuju hiperrealitas
  Saya sudah lama bilang ke teman-teman bahwa 5~10 tahun lagi, satu-satunya hal yang bisa hampir 100% dipercaya adalah yang terjadi langsung di depan mata
  Kita masih bisa memilih media tepercaya untuk memverifikasi, tetapi karena polarisasi, sebagian besar dunia akan menganggap semuanya sudah terkontaminasi lalu menyapu bersih semuanya sebagai palsu
  Lihat saja Sora atau model suara baru. Beberapa hari lalu pun ada pelatih olahraga SMA yang ditangkap karena meniru suara kepala sekolah dan membuatnya mengucapkan hal-hal mengerikan, lalu ketahuan karena memakai emailnya sendiri
  Kalau ini digabung dengan fakta bahwa model baru Phi-mini dari Microsoft, dengan 3,8 miliar parameter, mendekati performa GPT-3.5, itu jadi lebih menakutkan. GPT-3.5 punya 175 miliar parameter, dan optimisasi teknologi ini baru berjalan sekitar 5 tahun
  Saya ingin turun dari wahana gila Mr Bones
- Kepercayaan adalah ketergantungan mendasar dari keberadaan manusia. Bukan hanya peradaban, tetapi juga komunitas yang sangat kecil, bahkan pertukaran dasar gagasan, barang, dan jasa pun membutuhkannya
  Sulit memprediksi bagaimana risiko AI generatif yang merusak kepercayaan akan berkembang, tetapi saya tetap optimistis bahwa kreativitas manusia pada akhirnya akan menang
- File audio digital sulit dianggap sebagai bukti apa pun. Bahkan tanpa kloning suara pun, audio bisa dipotong, ditempel, dan diedit hingga menjadi hampir apa saja yang diinginkan
  Dengan latihan, meniru gaya bicara orang lain juga tidak terlalu sulit, dan itu hal yang biasa dilakukan aktor amatir maupun profesional
  Yang berubah hanya bahwa pekerjaan itu kini jadi lebih mudah, dan justru seharusnya membantu semua orang memahami betapa sulitnya mempercayai “bukti” semacam itu
- Ini juga masalah besar, tetapi masalah yang lebih besar adalah ketika panggilan spam mendapatkan sekitar 10 detik suaraku lalu menelepon bank atau keluargaku dengan suaraku
  Android dan iOS seharusnya mendukung pengubah suara real-time sebagai fitur bawaan, dengan tombol cepat untuk mematikannya di dialer dan opsi untuk menonaktifkannya bagi kontak yang dikenal
- Saya mulai melihat bahwa sensasionalisme seputar penggunaan AI untuk kejahatan dan niat buruk mirip dengan sensasionalisme penggunaan AI lainnya
  Akan ada penggunaan yang benar-benar mengganggu, tetapi perbedaan antara hal yang baru dimungkinkan oleh teknologi ini dan hal yang sebenarnya sudah mungkin dilakukan dari dulu jauh lebih kecil daripada yang orang-orang katakan
Ini bukan kloning, lebih mirip menyalin timbre suara. Bahkan dokumennya juga menuliskannya begitu, tetapi tetap saja disebut voice cloning
Setelah saya coba sendiri, hasilnya terdengar seperti orang Amerika, bukan aksen Lancashire saya yang biasanya lembut, dan sama sekali tidak terdengar seperti saya
- Dengan https://voiceshopai.github.io mungkin bisa dikembalikan agar lebih dekat ke aksen aslinya
  VoiceShopAi bisa mengubah suara muda menjadi suara tua, pria menjadi wanita, atau ke aksen negara mana pun
  Saya menemukannya di https://github.com/metame-ai/awesome-audio-plaza, yang melacak entri-entri baru di bidang audio
- Saya juga mencoba dengan suara saya sendiri, dan syukurlah sama sekali tidak terdengar seperti suara saya
- Judul atau namanya memang kurang bagus. Kalau dilihat lebih meta, kadang terasa komentar HN belakangan ini makin berubah menjadi reaksi terhadap judul ala Reddit alih-alih melihat sumber asli atau teknologinya sendiri
Apa sebenarnya kasus penggunaan yang sah untuk teknologi ini? Saya bisa memikirkan seratus cara untuk menipu orang lain, tetapi sulit membayangkan situasi di mana seseorang ingin mengkloning atau merekonstruksi suaranya sendiri
- Setelah merekam podcast, ini bisa dipakai saat hanya ingin memperbaiki beberapa kata tanpa repot merekam ulang
  Pengembang game indie juga bisa membuat NPC yang hidup, masing-masing dengan suara unik, dengan dialog yang digerakkan oleh model bahasa besar
  Dalam produksi film, dialog tertentu juga bisa disesuaikan dengan persetujuan aktor
  Ini juga dibutuhkan oleh orang yang perlahan kehilangan suara karena masalah kesehatan tetapi tetap ingin berkomunikasi
  Jelas ada kasus penggunaan yang sah untuk teknologi ini. Secara pribadi saya merasa penggunaan yang tidak sah akan melampaui penggunaan yang sah, tetapi tidak adil mengatakan tidak ada aplikasi yang sah sama sekali
  Penyalahgunaannya harus dikriminalisasi dan diatur ketat, bukan dilarang total. Untuk perangkat lunak dan model kecil, pelarangan juga cukup sulit
- Hanya soal waktu sebelum agen seperti Alexa memakai suara kustom yang lebih baik
  Audiobook juga bisa dibacakan dengan suara berbeda untuk tiap karakter, alih-alih satu narator yang memaksakan akting
  Ini juga bisa dipakai saat sedang flu tetapi ingin berpidato tanpa batuk
  Untuk transmisi audio berbandwidth rendah, cukup kirim teks lalu putar ulang dengan model suara lokal
  Bisa juga dipakai untuk bercakap-cakap dengan orang tercinta yang sudah meninggal
  Atau untuk hal lucu dan komedi
- Sepertinya Anda belum terlalu memikirkannya. Hal pertama yang terpikir oleh saya adalah memakai kloning suara sendiri untuk terjemahan real-time
  Dengan asumsi terjemahannya sempurna dan tidak dipakai untuk tujuan jahat, menurut saya itu aplikasi yang selalu berguna dan sama sekali tidak jahat
- Saya punya teman yang laringnya lumpuh, jadi dia sering mengetik di ponsel atau laptop kecil untuk berkomunikasi
  Kalau dari rekaman suara lamanya setidaknya bisa mengembalikan sebagian “suaranya” sendiri, dia pasti akan sangat menyukainya
  Sayangnya saya belum pernah melihat alat yang membuatkan model suara yang bisa ditanamkan ke Android TTS yang dia pakai atau ke Windows
- Saya sering main Counter-Strike, dan saat orang-orang menghina tim lawan dengan suara Joe Biden, itu cukup lucu
Kalau ingin terus mengikuti bidang ini, sebaiknya ke mana? Saya tertarik karena ingin berkarya dengan alat seperti ini, tetapi suara saya sendiri tidak terlalu cocok untuk penggunaan seperti itu
Untuk membuatnya terdengar lebih alami, sepertinya konversi suara-ke-suara akan lebih baik daripada text-to-speech. Saya sudah sedikit mencoba alat seperti RVC, tetapi rasanya ada banyak alur kerja hebat yang saya lewatkan di tengah kebisingan AI
Saya terutama penasaran dengan alur kerja yang menarik dan orang-orang yang membuat hal-hal seru dengan AI
- Jelas Twitter. Semua diumumkan dan didiskusikan di sana
Ada cukup banyak narasi kiamat dan drama yang dibesar-besarkan di sini. Dibandingkan metode AI kloning suara yang sudah bisa dipakai secara terbuka sejak sekitar setahun lalu, apa yang membuat rilis kali ini begitu jauh lebih buruk?
Saya benar-benar menantikan audiobook yang dibacakan dengan suara penulis lewat kloning suara
Tentu tidak akan sebaik jika penulis membacakannya sendiri, tetapi ada sesuatu pada suara penulis yang tidak bisa diberikan oleh pengisi suara. Pengisi suara terasa pengucapannya terlalu umum dan berlebihan, jadi secara pribadi saya merasa kurang terhubung
- Nilai tambahnya, meski penulis bukan pembaca terlatih, adalah intonasinya akan tepat sesuai dengan bagaimana kalimat-kalimat dalam buku itu dimaksudkan untuk diucapkan dan dipahami
  AI tidak akan bisa melakukan itu. Sehebat apa pun nantinya, AI tidak bisa membaca pikiran penulis. Hasilnya akan lebih generik daripada pembaca manusia
- Justru itu yang saya khawatirkan. Saya tidak paham kenapa buku harus dibacakan oleh penulisnya
  Pengisi suara terlatih jauh lebih bagus, dan juga bisa menyesuaikan suaranya dengan suasana
  Kalau autobiografi, masuk akal, tetapi dalam kasus seperti itu biasanya penulisnya memang sudah membacakannya sendiri
- Kalau Anda merasa pengisi suara audiobook terlalu generik, saya punya kabar yang lebih buruk lagi soal narasi AI yang dilatih dengan suara penulis
- Saya hampir tidak pernah ingin buku saya dibacakan oleh penulisnya. Penulis itu orang yang pandai menulis, dan audiobook bukan sekadar “membaca” kata-kata di halaman
  Mungkin kalau alat seperti Descript dipakai setelah narasi untuk menyesuaikan pengucapan oleh penulis, itu lain cerita, tetapi saya tidak menginginkan suara penulis
  Saya tertarik melatih model dengan suara Allyson Johnson untuk menarasikan buku-buku Honor Harrington, dan merekam ulang 1–2 buku spin-off yang memakai narator lain. Narator itu buruk sekali
  Ini juga mungkin bisa dipakai untuk merapikan bagian dalam seri Wheel of Time yang memakai dua narator yang sama tetapi mengubah pengucapan berbagai nama dan kata dari satu buku ke buku lain. Terutama “Moghedien”
  Setidaknya diucapkan dengan tiga cara: Mo-gid-e-on, Mo-ga-dean, Mog-a-din
- Akan bagus kalau setiap audiobook punya pilihan narator. Ada narator yang saya suka, dan ada juga yang benar-benar tidak sanggup saya dengarkan
  Selain itu, tanpa AI ada puluhan ribu buku yang tidak akan pernah terbit dalam format audio
Terkait: https://github.com/topics/voice-clone
- Saya penasaran apakah ada yang tahu mana dari yang ada di sini yang benar-benar berfungsi
  Setiap kali saya mencoba sejauh ini, hasilnya tidak terdengar seperti suara saya sebagai target maupun suara sumbernya, melainkan seperti suara baru acak
Saya memang melihat beberapa notebook Python, tetapi akan lebih baik kalau README-nya punya contoh kode

OpenVoice: Teknologi Kloning Suara Instan

Fitur kloning suara yang ditawarkan OpenVoice

Fitur utama OpenVoice V1

Kloning timbre yang akurat

Kontrol gaya suara yang fleksibel

Kloning suara lintas bahasa zero-shot

Perubahan di OpenVoice V2

Penggunaan nyata dan cakupan rilis

Penggunaan, lisensi, dan proyek dasar

Bacaan terkait

1 komentar

Komentar Hacker News