13 poin oleh GN⁺ 2024-03-30 | 1 komentar | Bagikan ke WhatsApp
  • Metode kloning suara instan serbaguna yang dapat menyalin suara seseorang hanya dari klip audio referensi yang singkat dan menghasilkan ucapan dalam berbagai bahasa
  • Memungkinkan kontrol yang sangat rinci atas gaya suara, serta dapat menyalin emosi, intonasi, ritme, jeda, prosodi, dan juga warna suara dari pembicara referensi
  • Mendukung kloning suara lintas bahasa zero-shot bahkan untuk bahasa yang tidak termasuk dalam set pelatihan pembicara berskala besar
  • Menawarkan performa unggul dengan biaya komputasi puluhan kali lebih rendah dibanding API komersial yang tersedia
  • Dapat mereplikasi warna suara referensi secara akurat dan menghasilkan ucapan dalam berbagai bahasa serta aksen
  • Memungkinkan kontrol yang rinci atas parameter gaya lain seperti ritme, jeda, dan prosodi, selain emosi dan intonasi

1 komentar

 
GN⁺ 2024-03-30

Opini Hacker News

  • Seorang pengguna Hacker News membagikan pengalamannya dan menjelaskan cara menjalankan demo Gradio OpenVoice secara lokal. Pengguna ini menyebutkan bahwa ia menggunakan RTX 3090 untuk menghasilkan suara lebih cepat daripada XTTS2, dengan penggunaan VRAM sekitar 1.5GB. Demo tersebut dibatasi hingga 200 karakter dengan mempertimbangkan penggunaan sumber daya, tetapi dikatakan berjalan pada kecepatan 8x waktu nyata. Ia juga mengatakan bahwa setelah memodifikasi demo untuk menguji teks yang lebih panjang, audio berdurasi 1 menit dapat dirender hanya dalam sekitar 4 detik. Kejernihan suaranya dinilai lebih baik daripada XTTS2, tetapi terasa agak canggung dan seperti robot.

  • Pengguna lain mempertanyakan kasus penggunaan yang etis untuk teknologi kloning suara. Pengguna ini menyebut berbagai kasus penggunaan negatif seperti pornografi, pencurian identitas, peniruan, penggantian pengisi suara, pencurian suara pengisi suara, serta menyembunyikan penggunaan bot dalam dukungan pelanggan. Namun, ia juga berpendapat bahwa meskipun ada kemungkinan kasus penggunaan positif seperti menyediakan suara asli bagi orang yang kehilangan suaranya, pasar seperti itu tidak cukup besar untuk membenarkan investasi.

  • Ada pengguna yang membagikan informasi bahwa OpenVoice berada di peringkat kedua terbawah pada leaderboard kompetisi Huggingface TTS. Pengguna ini menyebutkan bahwa alternatif seperti styletts2 dan xtts2 berada jauh lebih tinggi daripada OpenVoice.

  • Ada pengguna yang merasa heran mengapa meniru suara Elon Musk digunakan sebagai bukti kualitas. Menurutnya, suara Musk sendiri memang cenderung terdengar canggung dan terputus-putus, sehingga semestinya bisa meniru suara yang lebih baik.

  • Ada pengguna yang menyampaikan kabar bahwa Voicecraft telah merilis bobot model mereka.

  • Ada pengguna yang menyebutkan bahwa ia belum berhasil mencapai kualitas kloning suara serupa secara lokal dibandingkan klip yang disediakan di situs, dan menduga mungkin ada sesuatu yang salah.

  • Ada pengguna yang mengonfirmasi lewat GitHub bahwa ini dapat dijalankan secara lokal, dan menilai kualitasnya bagus.

  • Ada pengguna yang menjelaskan proses pengodean suara ke dalam representasi mirip IPA, lalu mendekodekan representasi tersebut ke bahasa target. Ia juga menyebut proses mengekstrak 'timbre' dan menghapusnya dari representasi mirip IPA, lalu menambahkannya kembali pada lapisan target. Dengan begitu, pengguna dapat mendengar suaranya sendiri berbicara dalam bahasa lain dengan timbre yang serupa. Pengguna itu bertanya-tanya, jika dirinya akhirnya belajar bahasa Mandarin dengan lancar, seberapa mirip hasilnya, dan apakah diperlukan semacam 'penerjemah timbre' yang menerjemahkan timbre ke bahasa lain.

  • Ada pengguna yang bertanya apakah ada yang mengetahui model 'kebalikan' yang bisa mengidentifikasi pembicara dari banyak rekaman untuk melakukan speaker diarization.

  • Ada pengguna yang menilai semua alat kloning suara memiliki ciri 'vocal fry', yang terasa seperti uncanny valley karena gagal mencocokkan bagian-bagian halus dari suara secara akurat. Pengguna ini menjelaskan bahwa alat-alat tersebut masih belum sepenuhnya lepas dari desahan khas yang mirip Microsoft Sam.