1 poin oleh GN⁺ 2023-07-18 | 1 komentar | Bagikan ke WhatsApp
  • SoundStorm adalah model untuk pembuatan audio yang efisien dan non-autoregresif.
  • Model ini menghasilkan token audio dengan menggunakan attention dua arah dan decoding paralel berbasis confidence.
  • Dibandingkan dengan pendekatan lain, SoundStorm 100 kali lebih cepat sambil mempertahankan kualitas dan konsistensi audio yang sama.
  • Di TPU-v4, SoundStorm dapat menghasilkan audio 30 detik hanya dalam 0,5 detik.
  • Model ini dapat menyintesis percakapan alami berkualitas tinggi dengan mengendalikan apa yang diucapkan, suara pembicara, dan pergantian pembicara.
  • SoundStorm dapat menghasilkan audio berbasis token semantik bersama voice prompt.
  • Model ini menghasilkan audio berkualitas tinggi sambil mempertahankan suara pembicara dari voice prompt.
  • SoundStorm menghasilkan audio dengan kualitas lebih tinggi dibanding model lain.
  • Model ini dapat terpengaruh oleh bias dalam data pelatihan, sehingga perlu kehati-hatian untuk mencegah penyalahgunaan.
  • SoundStorm dapat dideteksi oleh classifier khusus, sehingga mengurangi risiko penyalahgunaan.
  • Model ini dikembangkan untuk membuat riset pembuatan audio lebih mudah diakses oleh komunitas yang lebih luas.

1 komentar

 
GN⁺ 2023-07-18
Komentar Hacker News
  • Industri CGI telah membuat kemajuan besar dalam menciptakan visual dan audio yang realistis.
  • Teknologi sintesis percakapan telah mencapai tonggak di mana mesin dapat menghasilkan suara yang tidak dapat dibedakan dari manusia.
  • Di masa lalu, teknologi TTS kadang terdengar buruk, tetapi sekarang sudah ada opsi berkualitas tinggi.
  • Penulis bertanya-tanya kapan teknologi ini akan dapat diakses pada perangkat seperti Raspberry Pi.
  • Bing dan Bard menggunakan teknologi suara canggih, tetapi ada harapan agar kemajuan ini tersedia melalui API publik dan antarmuka pengguna.
  • Pekerjaan baru yang tercipta dari kemajuan teknologi sering kali bergaji rendah dan dianggap rendah.
  • SoundStorm dilatih untuk menghasilkan percakapan menggunakan transkrip yang menandai perubahan suara dengan '|'.
  • Model Bark juga menghasilkan percakapan, tetapi terkadang melewatkan perubahan suara.
  • Kemampuan untuk menghasilkan TTS 30 detik hanya dari 3 detik materi sumber sangat mengesankan.
  • Pasar kerja seperti UpWork dan Fiverr mungkin perlu beradaptasi dengan ketersediaan perangkat lunak yang dapat melakukan layanan mereka sendiri.
  • Pengguna Linux sedang mencari suara TTS yang mudah diatur.
  • Penulis komentar tidak tertarik pada game yang dibuat AI dan lebih menyukai dialog NPC yang ditulis manusia.
  • Contoh output SoundStorm mengesankan, tetapi memiliki beberapa cacat halus.
  • Penggunaan suara buatan AI dalam iklan tanpa izin dapat menimbulkan masalah hukum.
  • Tautan GitHub ke repositori PyTorch SoundStorm disediakan.