5 poin oleh GN⁺ 2024-04-28 | 1 komentar | Bagikan ke WhatsApp

Pengenalan OpenVoice V1

  • Keunggulan OpenVoice adalah sebagai berikut:
    • Replikasi timbre suara yang akurat: OpenVoice dapat mereplikasi timbre suara referensi secara akurat dan menghasilkan suara dalam berbagai bahasa serta aksen.
    • Kontrol gaya suara yang fleksibel: OpenVoice memungkinkan kontrol yang rinci terhadap gaya suara seperti emosi dan intonasi, serta parameter gaya lainnya seperti ritme, jeda, dan prosodi.
    • Kloning suara multibahasa zero-shot: Baik bahasa suara yang dihasilkan maupun bahasa suara referensi tidak harus telah disajikan dalam dataset pelatihan multibahasa berskala besar untuk banyak penutur.

Pengenalan OpenVoice V2

  • Pada April 2024, OpenVoice V2 dirilis, mencakup semua fitur V1 dan menambahkan fitur berikut:
    • Kualitas audio yang lebih baik: OpenVoice V2 mengadopsi strategi pelatihan lain yang memberikan kualitas audio lebih baik.
    • Dukungan multibahasa bawaan: Bahasa Inggris, Spanyol, Prancis, Mandarin, Jepang, dan Korea didukung secara bawaan di OpenVoice V2.
    • Gratis untuk penggunaan komersial: Sejak April 2024, V2 dan V1 dirilis di bawah lisensi MIT, sehingga bebas digunakan secara komersial.

Status penggunaan OpenVoice

  • OpenVoice telah menyediakan fitur kloning suara instan di myshell.ai sejak Mei 2023.
  • Hingga November 2023, model kloning suara telah digunakan puluhan juta kali oleh pengguna di seluruh dunia, dan platform tersebut menyaksikan pertumbuhan pengguna yang eksplosif.

Kontributor utama

  • Zengyi Qin (MIT, MyShell)
  • Wenliang Zhao (Tsinghua University)
  • Xumin Yu (Tsinghua University)
  • Ethan Sun (MyShell)

Cara penggunaan

  • Untuk cara penggunaan yang lebih rinci, lihat usage.

Isu umum

  • Untuk pertanyaan dan jawaban umum, lihat QA.
  • Daftar tanya jawab akan diperbarui secara berkala.

Partisipasi komunitas

  • Bergabunglah dengan komunitas Discord, dan saat bergabung pilih peran 'Developer' untuk mendapatkan akses eksklusif ke kanal khusus pengembang.
  • Jangan lewatkan diskusi bermanfaat dan peluang kolaborasi.

Kutipan

  • Implementasi ini didasarkan pada beberapa proyek unggulan seperti TTS, VITS, dan VITS2.
  • Terima kasih atas karya luar biasa mereka.

Lisensi

  • OpenVoice V1 dan V2 menggunakan lisensi MIT, dan gratis untuk penggunaan komersial maupun penelitian.

Opini GN⁺

  • OpenVoice adalah alat yang kuat untuk dengan mudah menghasilkan suara dalam berbagai bahasa dan emosi. Ini tampaknya dapat dimanfaatkan di berbagai bidang seperti film, animasi, dan game.

  • Namun, karena suara dapat dikloning dengan terlalu mudah, ada potensi penyalahgunaan. Misalnya, masalah seperti pembuatan video deepfake dengan menggunakan suara tokoh terkenal tanpa izin dapat terjadi. Tampaknya perlu disiapkan langkah penanggulangannya.

  • Produk komersial dengan fungsi serupa OpenVoice antara lain Lyrebird, Resemble.ai, dan Descript. Produk-produk ini terutama digunakan untuk dukungan pelanggan, call center, dan dubbing video.

  • Saat mengadopsi OpenVoice, perlu memperhatikan keamanan data dan masalah hak cipta. Selain itu, naturalitas suara yang dihasilkan dan akurasi pelafalan juga perlu dipastikan.

  • Karena dirilis sebagai open source, diharapkan kinerjanya akan terus meningkat melalui partisipasi berbagai pengembang. Menarik untuk melihat apakah kualitas suara dan fiturnya dapat mencapai level produk komersial.

1 komentar

 
GN⁺ 2024-04-28
Komentar Hacker News
  • Baru-baru ini terjadi kasus seorang pelatih tim olahraga menggunakan AI untuk membuat klip audio palsu yang merekayasa ucapan rasis kepala sekolah demi menjebaknya. Ini menunjukkan bahwa hukum dan penegak hukum harus berupaya mengejar laju perkembangan teknologi AI.
  • Diperkirakan masalah seperti bukti sejarah palsu, kebocoran palsu, dukungan palsu, dan iklan palsu akan menjadi semakin serius. Dalam situasi ketika artikel teks biasa pun tidak diperiksa dengan benar, dampak kerugian akibat teknologi AI kemungkinan akan jauh lebih besar.
  • Teknologi ini hanya meniru nada suara, bukan benar-benar menggandakan suara asli. Hal itu memang disebutkan dalam dokumen, tetapi tetap disebut sebagai 'kloning suara', sehingga menimbulkan kebingungan.
  • Sulit menemukan kasus penggunaan yang sah untuk teknologi ini. Potensinya besar untuk disalahgunakan guna menipu orang lain.
  • Bagi orang-orang yang ingin membuat hal-hal menarik dengan memanfaatkan teknologi AI, penting untuk menemukan tempat yang baik untuk mendapatkan informasi terkait. Saya lebih tertarik pada workflow menarik dan orang-orang yang memanfaatkannya daripada sekadar teknologi AI itu sendiri.
  • Dibandingkan dengan teknologi AI kloning suara lain yang sebelumnya telah dirilis, tampaknya tidak ada hal yang secara khusus lebih buruk dari rilis ini. Ada banyak pesimisme berlebihan dan reaksi yang dibesar-besarkan.
  • Saya berharap teknologi kloning suara memungkinkan pembuatan audiobook dengan suara penulisnya sendiri. Mungkin tidak sebaik dibacakan langsung, tetapi suara penulis akan terasa lebih menarik daripada pengisi suara profesional.
  • Akan bagus jika README menyertakan contoh kode.
  • Saya sudah mencoba "mengkloning" suara saya sendiri, tetapi hasilnya sama sekali tidak mirip. Saya berharap bisa mendengar suara saya berbicara dalam bahasa Prancis, tetapi ternyata tidak. Judul "kloning suara instan" agak menyesatkan.