Nvidia memperkenalkan Fugatto, model AI generatif suara yang fleksibel

xguru · 2024-11-27T11:20:01+09:00

Model AI generatif suara Fugatto yang dapat mengendalikan output audio menggunakan teks Dapat melakukan berbagai tugas seperti pembuatan musik, mengubah intonasi atau emosi suara, serta menambah/menghapus instrumen dari musik yang sudah ada Juga dapat menghasilkan suara yang sepenuhnya baru dan belum pernah didengar sebelumnya Fugatto dapat menerima musik, suara, dan bunyi lingkungan sebagai input dalam bentuk teks atau file audio untuk menghasilkan atau mentransformasikannya Dirancang agar memahami dan menghasilkan suara seperti manusia "Memungkinkan pembelajaran multitugas tanpa supervisi (Unsupervised), sehingga membuka potensi baru pada skala data dan model" Beragam kasus penggunaan Produksi musik: dapat langsung bereksperimen dan memodifikasi gaya lagu, suara, dan instrumen Periklanan: mengubah suara secara kustom berdasarkan wilayah dan konteks untuk mengoptimalkan kampanye Pembelajaran bahasa: menyediakan konten belajar yang dipersonalisasi dengan suara pilihan pengguna Pengembangan game: memodifikasi atau membuat baru aset audio sesuai situasi dalam game Menciptakan suara baru: seperti "kursi alpukat" pada AI pembuat gambar Misalnya, dapat menghasilkan suara terompet yang menggonggong seperti anjing (bark) atau saksofon yang mengeong seperti kucing (meow) Juga dapat menangani tugas yang belum dipra-latih, seperti menghasilkan suara nyanyian berkualitas tinggi dari prompt teks melalui fine-tuning dan sejumlah kecil data lagu Memberikan Artistic Control kepada pengguna Fitur kontrol yang berorientasi pada pengguna Menggabungkan beberapa instruksi melalui teknologi ComposableART Detail instruksi teks dapat disesuaikan: misalnya menggabungkan aksen Prancis dengan emosi sedih Mengendalikan evolusi suara dengan interpolasi temporal: misalnya membuat lanskap hujan dengan suara petir yang perlahan memudar Memberikan kebebasan yang belum pernah ada sebelumnya kepada pengguna untuk menciptakan suara Karakteristik teknis Model AI generatif yang dilatih dengan 250 juta parameter menggunakan sistem NVIDIA DGX dan GPU H100 Dukungan multi-bahasa dan aksen diperkuat melalui kolaborasi tim riset multinasional Dataset pelatihan dibuat dari jutaan sampel audio Kinerja ditingkatkan dengan menganalisis ulang hubungan antar data Menghabiskan lebih dari satu tahun untuk mengamankan data pelatihan dan memperluas model Mereka terkejut saat pertama kali berhasil menghasilkan musik dari prompt teks, dan demo yang menggabungkan musik elektronik dengan suara gonggongan anjing memicu gelak tawa sekaligus menegaskan potensi ke depan

(blogs.nvidia.com)

3 poin oleh xguru 2024-11-27 | Belum ada komentar. | Bagikan ke WhatsApp

Model AI generatif suara Fugatto yang dapat mengendalikan output audio menggunakan teks
- Dapat melakukan berbagai tugas seperti pembuatan musik, mengubah intonasi atau emosi suara, serta menambah/menghapus instrumen dari musik yang sudah ada
- Juga dapat menghasilkan suara yang sepenuhnya baru dan belum pernah didengar sebelumnya
Fugatto dapat menerima musik, suara, dan bunyi lingkungan sebagai input dalam bentuk teks atau file audio untuk menghasilkan atau mentransformasikannya
- Dirancang agar memahami dan menghasilkan suara seperti manusia
- "Memungkinkan pembelajaran multitugas tanpa supervisi (Unsupervised), sehingga membuka potensi baru pada skala data dan model"

Beragam kasus penggunaan

Produksi musik: dapat langsung bereksperimen dan memodifikasi gaya lagu, suara, dan instrumen
Periklanan: mengubah suara secara kustom berdasarkan wilayah dan konteks untuk mengoptimalkan kampanye
Pembelajaran bahasa: menyediakan konten belajar yang dipersonalisasi dengan suara pilihan pengguna
Pengembangan game: memodifikasi atau membuat baru aset audio sesuai situasi dalam game
Menciptakan suara baru: seperti "kursi alpukat" pada AI pembuat gambar
- Misalnya, dapat menghasilkan suara terompet yang menggonggong seperti anjing (bark) atau saksofon yang mengeong seperti kucing (meow)
- Juga dapat menangani tugas yang belum dipra-latih, seperti menghasilkan suara nyanyian berkualitas tinggi dari prompt teks melalui fine-tuning dan sejumlah kecil data lagu

Memberikan Artistic Control kepada pengguna

Fitur kontrol yang berorientasi pada pengguna
- Menggabungkan beberapa instruksi melalui teknologi ComposableART
- Detail instruksi teks dapat disesuaikan: misalnya menggabungkan aksen Prancis dengan emosi sedih
- Mengendalikan evolusi suara dengan interpolasi temporal: misalnya membuat lanskap hujan dengan suara petir yang perlahan memudar
Memberikan kebebasan yang belum pernah ada sebelumnya kepada pengguna untuk menciptakan suara

Karakteristik teknis

Model AI generatif yang dilatih dengan 250 juta parameter menggunakan sistem NVIDIA DGX dan GPU H100
Dukungan multi-bahasa dan aksen diperkuat melalui kolaborasi tim riset multinasional
Dataset pelatihan dibuat dari jutaan sampel audio
- Kinerja ditingkatkan dengan menganalisis ulang hubungan antar data
Menghabiskan lebih dari satu tahun untuk mengamankan data pelatihan dan memperluas model
Mereka terkejut saat pertama kali berhasil menghasilkan musik dari prompt teks, dan demo yang menggabungkan musik elektronik dengan suara gonggongan anjing memicu gelak tawa sekaligus menegaskan potensi ke depan

Nvidia memperkenalkan Fugatto, model AI generatif suara yang fleksibel

Beragam kasus penggunaan

Memberikan Artistic Control kepada pengguna

Karakteristik teknis

Bacaan terkait

Belum ada komentar.