5 poin oleh GN⁺ 2024-04-28 | 1 komentar | Bagikan ke WhatsApp
  • OpenVoice adalah proyek kloning suara instan yang menyalin timbre referensi untuk menghasilkan suara dalam berbagai bahasa dan aksen, serta telah merilis fitur V1 dan V2
  • V1 mendukung kloning timbre yang akurat, kontrol gaya suara seperti emosi, intonasi, ritme, jeda, dan perubahan nada, serta kloning suara lintas bahasa zero-shot
  • OpenVoice V2 dirilis pada April 2024, mencakup fitur V1 sekaligus memberikan kualitas audio yang lebih baik dengan strategi pelatihan yang berbeda
  • V2 mendukung bahasa Inggris, Spanyol, Prancis, Tiongkok, Jepang, dan Korea secara multibahasa native, dan baik V1 maupun V2 tersedia gratis untuk penggunaan komersial dan riset dengan lisensi MIT
  • OpenVoice telah digunakan untuk fitur kloning suara instan di myshell.ai sejak Mei 2023, dan hingga November 2023 telah digunakan puluhan juta kali oleh pengguna di seluruh dunia

Fitur kloning suara yang ditawarkan OpenVoice

Fitur utama OpenVoice V1

  • Kloning timbre yang akurat

    • Dapat menyalin timbre referensi secara akurat
    • Dapat menghasilkan suara dalam berbagai bahasa dan aksen
  • Kontrol gaya suara yang fleksibel

    • Dapat mengontrol emosi dan intonasi secara rinci
    • Parameter gaya seperti ritme, jeda, dan perubahan intonasi juga dapat dikendalikan
  • Kloning suara lintas bahasa zero-shot

    • Bahasa suara hasil generasi maupun bahasa suara referensi tidak harus termasuk dalam dataset pelatihan multibahasa multi-penutur berskala besar

Perubahan di OpenVoice V2

  • OpenVoice V2 dirilis pada April 2024
  • V2 mencakup semua fitur V1
  • Dengan mengadopsi strategi pelatihan yang berbeda, V2 memberikan kualitas audio yang lebih baik
  • Mendukung bahasa Inggris, Spanyol, Prancis, Tiongkok, Jepang, dan Korea secara native
  • Sejak April 2024, baik V2 maupun V1 dirilis dengan MIT License, sehingga gratis untuk penggunaan komersial

Penggunaan nyata dan cakupan rilis

  • OpenVoice telah menggerakkan fitur kloning suara instan milik myshell.ai sejak Mei 2023
  • Hingga November 2023, model kloning suara ini telah digunakan puluhan juta kali oleh pengguna di seluruh dunia
  • README menyertakan demo Video

Penggunaan, lisensi, dan proyek dasar

  • Cara penggunaan yang lebih rinci dijelaskan dalam dokumen usage di repositori
  • Pertanyaan dan jawaban umum dibahas dalam dokumen QA di repositori
  • OpenVoice V1 dan V2 berlisensi MIT License, dan gratis untuk penggunaan komersial maupun riset
  • Implementasinya dibangun berdasarkan TTS, VITS, VITS2

1 komentar

 
GN⁺ 2024-04-28
Komentar Hacker News
  • Beberapa hari terakhir juga ada kejadian seperti ini: polisi mengatakan bahwa kepala bagian olahraga membuat klip suara palsu dengan AI untuk menuduh kepala sekolah mengucapkan komentar rasis
    https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c

    • Karena itu teknologi ini harus dibuat luas digunakan dan dikenal. Orang-orang harus jadi lebih waspada, tidak langsung percaya apa pun, dan memeriksa sumbernya
      tentu saja kebanyakan orang tetap tidak akan melakukan cek fakta
  • Kita telah memasuki masa ketika hukum dan penegakannya harus mengejar dengan sangat cepat
    bukti sejarah palsu, kebocoran palsu, deklarasi dukungan palsu, sampai iklan palsu semuanya menjadi mungkin
    Orang-orang saja sudah malas memverifikasi posting teks apa pun di Facetok, jadi ke depan sepertinya akan jauh lebih buruk

    • Ini terlihat seperti arus dari hipernormalisasi menuju hiperrealitas
      Saya sudah lama bilang ke teman-teman bahwa 5~10 tahun lagi, satu-satunya hal yang bisa hampir 100% dipercaya adalah yang terjadi langsung di depan mata
      Kita masih bisa memilih media tepercaya untuk memverifikasi, tetapi karena polarisasi, sebagian besar dunia akan menganggap semuanya sudah terkontaminasi lalu menyapu bersih semuanya sebagai palsu
      Lihat saja Sora atau model suara baru. Beberapa hari lalu pun ada pelatih olahraga SMA yang ditangkap karena meniru suara kepala sekolah dan membuatnya mengucapkan hal-hal mengerikan, lalu ketahuan karena memakai emailnya sendiri
      Kalau ini digabung dengan fakta bahwa model baru Phi-mini dari Microsoft, dengan 3,8 miliar parameter, mendekati performa GPT-3.5, itu jadi lebih menakutkan. GPT-3.5 punya 175 miliar parameter, dan optimisasi teknologi ini baru berjalan sekitar 5 tahun
      Saya ingin turun dari wahana gila Mr Bones
    • Kepercayaan adalah ketergantungan mendasar dari keberadaan manusia. Bukan hanya peradaban, tetapi juga komunitas yang sangat kecil, bahkan pertukaran dasar gagasan, barang, dan jasa pun membutuhkannya
      Sulit memprediksi bagaimana risiko AI generatif yang merusak kepercayaan akan berkembang, tetapi saya tetap optimistis bahwa kreativitas manusia pada akhirnya akan menang
    • File audio digital sulit dianggap sebagai bukti apa pun. Bahkan tanpa kloning suara pun, audio bisa dipotong, ditempel, dan diedit hingga menjadi hampir apa saja yang diinginkan
      Dengan latihan, meniru gaya bicara orang lain juga tidak terlalu sulit, dan itu hal yang biasa dilakukan aktor amatir maupun profesional
      Yang berubah hanya bahwa pekerjaan itu kini jadi lebih mudah, dan justru seharusnya membantu semua orang memahami betapa sulitnya mempercayai “bukti” semacam itu
    • Ini juga masalah besar, tetapi masalah yang lebih besar adalah ketika panggilan spam mendapatkan sekitar 10 detik suaraku lalu menelepon bank atau keluargaku dengan suaraku
      Android dan iOS seharusnya mendukung pengubah suara real-time sebagai fitur bawaan, dengan tombol cepat untuk mematikannya di dialer dan opsi untuk menonaktifkannya bagi kontak yang dikenal
    • Saya mulai melihat bahwa sensasionalisme seputar penggunaan AI untuk kejahatan dan niat buruk mirip dengan sensasionalisme penggunaan AI lainnya
      Akan ada penggunaan yang benar-benar mengganggu, tetapi perbedaan antara hal yang baru dimungkinkan oleh teknologi ini dan hal yang sebenarnya sudah mungkin dilakukan dari dulu jauh lebih kecil daripada yang orang-orang katakan
  • Ini bukan kloning, lebih mirip menyalin timbre suara. Bahkan dokumennya juga menuliskannya begitu, tetapi tetap saja disebut voice cloning
    Setelah saya coba sendiri, hasilnya terdengar seperti orang Amerika, bukan aksen Lancashire saya yang biasanya lembut, dan sama sekali tidak terdengar seperti saya

    • Dengan https://voiceshopai.github.io mungkin bisa dikembalikan agar lebih dekat ke aksen aslinya
      VoiceShopAi bisa mengubah suara muda menjadi suara tua, pria menjadi wanita, atau ke aksen negara mana pun
      Saya menemukannya di https://github.com/metame-ai/awesome-audio-plaza, yang melacak entri-entri baru di bidang audio
    • Saya juga mencoba dengan suara saya sendiri, dan syukurlah sama sekali tidak terdengar seperti suara saya
    • Judul atau namanya memang kurang bagus. Kalau dilihat lebih meta, kadang terasa komentar HN belakangan ini makin berubah menjadi reaksi terhadap judul ala Reddit alih-alih melihat sumber asli atau teknologinya sendiri
  • Apa sebenarnya kasus penggunaan yang sah untuk teknologi ini? Saya bisa memikirkan seratus cara untuk menipu orang lain, tetapi sulit membayangkan situasi di mana seseorang ingin mengkloning atau merekonstruksi suaranya sendiri

    • Setelah merekam podcast, ini bisa dipakai saat hanya ingin memperbaiki beberapa kata tanpa repot merekam ulang
      Pengembang game indie juga bisa membuat NPC yang hidup, masing-masing dengan suara unik, dengan dialog yang digerakkan oleh model bahasa besar
      Dalam produksi film, dialog tertentu juga bisa disesuaikan dengan persetujuan aktor
      Ini juga dibutuhkan oleh orang yang perlahan kehilangan suara karena masalah kesehatan tetapi tetap ingin berkomunikasi
      Jelas ada kasus penggunaan yang sah untuk teknologi ini. Secara pribadi saya merasa penggunaan yang tidak sah akan melampaui penggunaan yang sah, tetapi tidak adil mengatakan tidak ada aplikasi yang sah sama sekali
      Penyalahgunaannya harus dikriminalisasi dan diatur ketat, bukan dilarang total. Untuk perangkat lunak dan model kecil, pelarangan juga cukup sulit
    • Hanya soal waktu sebelum agen seperti Alexa memakai suara kustom yang lebih baik
      Audiobook juga bisa dibacakan dengan suara berbeda untuk tiap karakter, alih-alih satu narator yang memaksakan akting
      Ini juga bisa dipakai saat sedang flu tetapi ingin berpidato tanpa batuk
      Untuk transmisi audio berbandwidth rendah, cukup kirim teks lalu putar ulang dengan model suara lokal
      Bisa juga dipakai untuk bercakap-cakap dengan orang tercinta yang sudah meninggal
      Atau untuk hal lucu dan komedi
    • Sepertinya Anda belum terlalu memikirkannya. Hal pertama yang terpikir oleh saya adalah memakai kloning suara sendiri untuk terjemahan real-time
      Dengan asumsi terjemahannya sempurna dan tidak dipakai untuk tujuan jahat, menurut saya itu aplikasi yang selalu berguna dan sama sekali tidak jahat
    • Saya punya teman yang laringnya lumpuh, jadi dia sering mengetik di ponsel atau laptop kecil untuk berkomunikasi
      Kalau dari rekaman suara lamanya setidaknya bisa mengembalikan sebagian “suaranya” sendiri, dia pasti akan sangat menyukainya
      Sayangnya saya belum pernah melihat alat yang membuatkan model suara yang bisa ditanamkan ke Android TTS yang dia pakai atau ke Windows
    • Saya sering main Counter-Strike, dan saat orang-orang menghina tim lawan dengan suara Joe Biden, itu cukup lucu
  • Kalau ingin terus mengikuti bidang ini, sebaiknya ke mana? Saya tertarik karena ingin berkarya dengan alat seperti ini, tetapi suara saya sendiri tidak terlalu cocok untuk penggunaan seperti itu
    Untuk membuatnya terdengar lebih alami, sepertinya konversi suara-ke-suara akan lebih baik daripada text-to-speech. Saya sudah sedikit mencoba alat seperti RVC, tetapi rasanya ada banyak alur kerja hebat yang saya lewatkan di tengah kebisingan AI
    Saya terutama penasaran dengan alur kerja yang menarik dan orang-orang yang membuat hal-hal seru dengan AI

    • Jelas Twitter. Semua diumumkan dan didiskusikan di sana
  • Ada cukup banyak narasi kiamat dan drama yang dibesar-besarkan di sini. Dibandingkan metode AI kloning suara yang sudah bisa dipakai secara terbuka sejak sekitar setahun lalu, apa yang membuat rilis kali ini begitu jauh lebih buruk?

  • Saya benar-benar menantikan audiobook yang dibacakan dengan suara penulis lewat kloning suara
    Tentu tidak akan sebaik jika penulis membacakannya sendiri, tetapi ada sesuatu pada suara penulis yang tidak bisa diberikan oleh pengisi suara. Pengisi suara terasa pengucapannya terlalu umum dan berlebihan, jadi secara pribadi saya merasa kurang terhubung

    • Nilai tambahnya, meski penulis bukan pembaca terlatih, adalah intonasinya akan tepat sesuai dengan bagaimana kalimat-kalimat dalam buku itu dimaksudkan untuk diucapkan dan dipahami
      AI tidak akan bisa melakukan itu. Sehebat apa pun nantinya, AI tidak bisa membaca pikiran penulis. Hasilnya akan lebih generik daripada pembaca manusia
    • Justru itu yang saya khawatirkan. Saya tidak paham kenapa buku harus dibacakan oleh penulisnya
      Pengisi suara terlatih jauh lebih bagus, dan juga bisa menyesuaikan suaranya dengan suasana
      Kalau autobiografi, masuk akal, tetapi dalam kasus seperti itu biasanya penulisnya memang sudah membacakannya sendiri
    • Kalau Anda merasa pengisi suara audiobook terlalu generik, saya punya kabar yang lebih buruk lagi soal narasi AI yang dilatih dengan suara penulis
    • Saya hampir tidak pernah ingin buku saya dibacakan oleh penulisnya. Penulis itu orang yang pandai menulis, dan audiobook bukan sekadar “membaca” kata-kata di halaman
      Mungkin kalau alat seperti Descript dipakai setelah narasi untuk menyesuaikan pengucapan oleh penulis, itu lain cerita, tetapi saya tidak menginginkan suara penulis
      Saya tertarik melatih model dengan suara Allyson Johnson untuk menarasikan buku-buku Honor Harrington, dan merekam ulang 1–2 buku spin-off yang memakai narator lain. Narator itu buruk sekali
      Ini juga mungkin bisa dipakai untuk merapikan bagian dalam seri Wheel of Time yang memakai dua narator yang sama tetapi mengubah pengucapan berbagai nama dan kata dari satu buku ke buku lain. Terutama “Moghedien”
      Setidaknya diucapkan dengan tiga cara: Mo-gid-e-on, Mo-ga-dean, Mog-a-din
    • Akan bagus kalau setiap audiobook punya pilihan narator. Ada narator yang saya suka, dan ada juga yang benar-benar tidak sanggup saya dengarkan
      Selain itu, tanpa AI ada puluhan ribu buku yang tidak akan pernah terbit dalam format audio
  • Terkait: https://github.com/topics/voice-clone

    • Saya penasaran apakah ada yang tahu mana dari yang ada di sini yang benar-benar berfungsi
      Setiap kali saya mencoba sejauh ini, hasilnya tidak terdengar seperti suara saya sebagai target maupun suara sumbernya, melainkan seperti suara baru acak
  • Saya memang melihat beberapa notebook Python, tetapi akan lebih baik kalau README-nya punya contoh kode