3 poin oleh xguru 2024-11-27 | Belum ada komentar. | Bagikan ke WhatsApp
  • Model AI generatif suara Fugatto yang dapat mengendalikan output audio menggunakan teks
    • Dapat melakukan berbagai tugas seperti pembuatan musik, mengubah intonasi atau emosi suara, serta menambah/menghapus instrumen dari musik yang sudah ada
    • Juga dapat menghasilkan suara yang sepenuhnya baru dan belum pernah didengar sebelumnya
  • Fugatto dapat menerima musik, suara, dan bunyi lingkungan sebagai input dalam bentuk teks atau file audio untuk menghasilkan atau mentransformasikannya
    • Dirancang agar memahami dan menghasilkan suara seperti manusia
    • "Memungkinkan pembelajaran multitugas tanpa supervisi (Unsupervised), sehingga membuka potensi baru pada skala data dan model"

Beragam kasus penggunaan

  • Produksi musik: dapat langsung bereksperimen dan memodifikasi gaya lagu, suara, dan instrumen
  • Periklanan: mengubah suara secara kustom berdasarkan wilayah dan konteks untuk mengoptimalkan kampanye
  • Pembelajaran bahasa: menyediakan konten belajar yang dipersonalisasi dengan suara pilihan pengguna
  • Pengembangan game: memodifikasi atau membuat baru aset audio sesuai situasi dalam game
  • Menciptakan suara baru: seperti "kursi alpukat" pada AI pembuat gambar
    • Misalnya, dapat menghasilkan suara terompet yang menggonggong seperti anjing (bark) atau saksofon yang mengeong seperti kucing (meow)
    • Juga dapat menangani tugas yang belum dipra-latih, seperti menghasilkan suara nyanyian berkualitas tinggi dari prompt teks melalui fine-tuning dan sejumlah kecil data lagu

Memberikan Artistic Control kepada pengguna

  • Fitur kontrol yang berorientasi pada pengguna
    • Menggabungkan beberapa instruksi melalui teknologi ComposableART
    • Detail instruksi teks dapat disesuaikan: misalnya menggabungkan aksen Prancis dengan emosi sedih
    • Mengendalikan evolusi suara dengan interpolasi temporal: misalnya membuat lanskap hujan dengan suara petir yang perlahan memudar
  • Memberikan kebebasan yang belum pernah ada sebelumnya kepada pengguna untuk menciptakan suara

Karakteristik teknis

  • Model AI generatif yang dilatih dengan 250 juta parameter menggunakan sistem NVIDIA DGX dan GPU H100
  • Dukungan multi-bahasa dan aksen diperkuat melalui kolaborasi tim riset multinasional
  • Dataset pelatihan dibuat dari jutaan sampel audio
    • Kinerja ditingkatkan dengan menganalisis ulang hubungan antar data
  • Menghabiskan lebih dari satu tahun untuk mengamankan data pelatihan dan memperluas model
  • Mereka terkejut saat pertama kali berhasil menghasilkan musik dari prompt teks, dan demo yang menggabungkan musik elektronik dengan suara gonggongan anjing memicu gelak tawa sekaligus menegaskan potensi ke depan

Belum ada komentar.

Belum ada komentar.