5 poin oleh GN⁺ 2024-01-02 | 1 komentar | Bagikan ke WhatsApp

OpenVoice: Teknologi Kloning Suara Instan yang Serbaguna

  • OpenVoice adalah pendekatan kloning suara serbaguna yang dapat menyalin suara hanya dari klip audio pendek suara referensi tersebut dan menghasilkan suara dalam berbagai bahasa.
  • Teknologi ini menawarkan fleksibilitas dalam kontrol gaya suara, tidak hanya mereplikasi warna tonal suara referensi tetapi juga memungkinkan pengaturan rinci terhadap gaya bicara seperti emosi, intonasi, ritme, jeda, dan aksentuasi.
  • OpenVoice mencapai kloning suara lintas bahasa zero-shot bahkan untuk bahasa yang tidak termasuk dalam dataset pelatihan penutur berskala besar.

Detail teknis dan kontribusi riset

  • OpenVoice memiliki biaya komputasi yang puluhan kali lebih efisien dibandingkan API yang tersedia secara komersial, dengan performa yang juga unggul.
  • Untuk mendorong kemajuan lebih lanjut di bidang riset, kode sumber dan model terlatih dibuat dapat diakses secara publik.
  • Situs web demo menyediakan hasil kualitatif, dan versi internal sebelum rilis telah digunakan puluhan juta kali oleh pengguna di seluruh dunia dari Mei hingga Oktober 2023.

Opini GN⁺

  • OpenVoice menunjukkan kemajuan penting dalam teknologi kloning suara, terutama kemampuan menghasilkan suara dalam berbagai bahasa dan gaya yang sangat inovatif.
  • Teknologi ini memiliki potensi penerapan di berbagai bidang seperti pendidikan, hiburan, dan layanan suara yang dipersonalisasi.
  • Kode sumber dan model yang dibuka untuk publik diharapkan dapat berkontribusi dalam mempercepat riset teknologi suara.

1 komentar

 
GN⁺ 2024-01-02
Opini Hacker News
  • Pengguna memuji para penulis yang membuat proyek ini mudah untuk dicoba. Namun, untuk kloning suara umum, ia mengalami hasil yang kurang memuaskan. Ia membaca paragraf pertama halaman Wikipedia tentang sebuah buku dan meminta model menghasilkan kalimat berikut, tetapi hasilnya terdengar seperti dibuat oleh komputer.

    • Merujuk pada sampel audio yang disediakan dan tautan suara hasil kloning (konversi mp3).
    • Menginstal paket yang diperlukan dengan pip dan menjalankan demo_part1.ipynb menggunakan sampel audionya sendiri. Notebook tersebut berjalan hampir seketika.
  • Pengguna meminta rekomendasi proyek open source yang bagus untuk digunakan ketika ingin melakukan kloning suara di perangkat kerasnya sendiri. Ia penasaran dengan kondisi terkini kloning suara open source.

  • Pengguna bertanya apakah teknologi ini (atau Eleven Labs) bisa digunakan untuk membuat model suara yang dapat dihubungkan ke TTS di ponsel Android.

    • Teman pengguna berkomunikasi dengan sering mengetik di ponsel atau laptop kecil karena kelumpuhan laring. Akan menyenangkan jika temannya dapat sedikit mendapatkan kembali suaranya "sendiri" dengan menggunakan rekaman suara dirinya di masa lalu.
  • Pengguna menyukai makalah ini. Ia merasakan nuansa "inilah yang kami lakukan dan kami ingin membantu orang lain agar juga bisa melakukannya". Ia sangat mengapresiasi bagian "Remark on Novelty": kontribusi OpenVoice bukanlah menemukan submodul dalam arsitektur model, melainkan menyediakan kerangka kerja terpisah yang memisahkan gaya suara dan kontrol bahasa dari kloning timbre.

  • Menyediakan tautan GitHub dan tautan checkpoint (file zip). Pengguna merasa alergi terhadap tautan langsung ke file zip yang di-host di Amazon, jadi ia memberikan versi tautan checkpoint yang telah diperbaiki.

  • Pengguna menilai tautan contoh yang disediakan mengesankan.

  • Pengguna berharap YouTube melarang penggunaan teknologi ini atau setidaknya menyediakan kemampuan untuk memfilter video seperti itu.

  • Pengguna mengalami bahwa saat menelepon salah satu bank besar di Inggris, bank tersebut masih mendorong pendaftaran ke program "suara saya adalah kata sandi saya". Pada tahap perkembangan AI saat ini, hal itu terasa sekadar ceroboh.

  • Pikiran pertama pengguna, dan yang terus bertahan, adalah bahwa penggunaan kloning suara yang tidak bermoral atau kriminal jauh melebihi penggunaan yang sah.

  • Pemimpin saat ini di ranah kloning suara open source adalah RVC, dan pengguna ingin melihat bagaimana perbedaannya dibanding ini.