Stable Audio 2.0

(stability.ai)

7 poin oleh GN⁺ 2024-04-06 | 1 komentar | Bagikan ke WhatsApp

Stable Audio 2.0 menetapkan standar baru untuk trek penuh berkualitas tinggi yang dihasilkan AI, hingga durasi 3 menit, dalam stereo 44.1kHz
Memperkenalkan kemampuan generasi audio-to-audio yang memungkinkan pengguna mengunggah sampel dan mengubahnya menggunakan prompt bahasa alami
Dilatih secara eksklusif menggunakan dataset berlisensi dari pustaka musik AudioSparx, sambil menghormati permintaan 'opt out' dari kreator dan menjamin kompensasi yang adil
Pengguna dapat menjelajahi model di situs web Stable Audio dan mulai berkarya secara gratis

Fitur baru

Dapat menghasilkan lagu hingga 3 menit, dengan komposisi terstruktur yang mencakup intro, perkembangan, dan outro, serta efek suara stereo
Generasi Audio-To-Audio : Mendukung unggahan file audio untuk mengubah ide menjadi sampel yang diproduksi sepenuhnya. Ketentuan layanan mewajibkan hanya materi bebas hak cipta yang diunggah, dan sistem menggunakan pengenalan konten tingkat lanjut untuk mencegah pelanggaran hak cipta
Pembuatan variasi dan efek suara : Meningkatkan produksi berbagai suara dan efek audio, mulai dari bunyi ketikan keyboard hingga sorakan kerumunan dan dengungan jalanan kota
Peralihan gaya : Memodifikasi audio yang baru dibuat atau diunggah secara mulus dalam proses generasi agar sesuai dengan gaya dan nuansa tertentu dari proyek

Arsitektur model latent diffusion dari Stable Audio 2.0 dirancang untuk memungkinkan generasi trek penuh yang terstruktur
Untuk itu, semua komponen sistem disesuaikan guna meningkatkan performa dalam jangka waktu panjang
Autoencoder baru yang sangat terkompresi memadatkan waveform audio mentah menjadi representasi yang jauh lebih pendek
Diffusion Transformer (DiT) digunakan menggantikan U-Net sebelumnya, dan lebih mahir dalam memanipulasi data pada sekuens panjang

Seperti model 1.0, versi 2.0 dilatih menggunakan data AudioSparx yang mencakup lebih dari 800.000 musik, efek suara, file stem instrumen tunggal, dan metadata teks terkait
Semua artis di AudioSparx memiliki opsi untuk melakukan 'opt out' dari pelatihan model Stable Audio
Untuk melindungi hak pemegang hak cipta, saat audio diunggah mereka bermitra dengan AudibleMagic dan menggunakan teknologi content recognition (ACR) mereka untuk mencegah pelanggaran hak cipta melalui pencocokan konten secara real-time

Stable Radio adalah live stream 24/7 yang hanya menampilkan trek yang dihasilkan oleh Stable Audio, dan saat ini sedang streaming di kanal YouTube Stable Audio
Pengguna dapat menjelajahi model di situs web Stable Audio dan mulai berkarya secara gratis.

Stable Audio 2.0 memiliki potensi untuk membawa inovasi ke industri musik dengan menyediakan alat kreasi berbasis AI bagi para pembuat musik. Kemampuan memahami maksud pengguna melalui pemrosesan bahasa alami dan mengubahnya menjadi musik dapat menyederhanakan proses kreatif serta memberi lebih banyak orang kesempatan untuk ikut membuat musik.
Salah satu masalah yang dapat dibawa teknologi ini adalah persoalan hak cipta. Meskipun perusahaan menyatakan telah mengambil langkah untuk mencegah pelanggaran hak cipta, persoalan hukum terkait kepemilikan hak cipta atas konten yang dihasilkan AI masih tetap kompleks.
Salah satu hal yang perlu dipertimbangkan saat memperkenalkan AI ke produksi musik adalah persepsi terhadap orisinalitas dan nilai artistik musik yang dihasilkan AI. Perlu ada diskusi tentang apakah AI dapat meniru atau menggantikan kreativitas manusia, dan dampaknya terhadap industri musik.
Manfaat yang bisa diperoleh dari penggunaan alat generasi musik AI mencakup pemangkasan waktu kreasi, eksperimen dengan berbagai gaya dan genre musik, serta memungkinkan kreator membuat musik tanpa harus memiliki pengetahuan mendalam tentang teori musik atau keterampilan memainkan instrumen.
Jika mempertimbangkan dampak positif teknologi ini terhadap pendidikan musik, alat ini dapat membantu siswa yang mempelajari teori musik untuk mengeksplorasi dan memahami beragam gaya dan struktur musik.

GN⁺ 2024-04-06

Musik AI ini mengesankan, tetapi terasa ada yang kurang karena sepertinya tidak bisa merasakan niat dan emosi yang terkandung dalam musik buatan manusia.
Tidak ada penyebutan tentang hak cipta untuk audio yang dihasilkan AI, sehingga ada masalah penting terkait kepemilikan hasil keluarannya.
Saya memberi AI beat yang saya buat 10 tahun lalu, dan hasilnya terdengar seperti stereo yang dimasukkan ke mesin cuci. Sepertinya butuh dataset yang lebih besar, tetapi saya sedang mempertimbangkan untuk berlangganan.
Stability AI telah melakukan hal yang baik dengan menggunakan dataset berlisensi untuk memastikan kompensasi yang adil bagi para kreator.
Secara teknis mengesankan, tetapi musik yang dihasilkan AI terdengar biasa saja. Musisi elektronik modern bisa menghasilkan karya yang lebih baik.
Disayangkan Stability AI tidak bersifat open source. Semoga tidak menempuh jalan yang sama seperti OpenAI.
AI mencoba menyusun ulang sampel audio agar terdengar mirip, tetapi tetap berbeda dari permainan drum dan gitar sungguhan. Meski begitu, ini menarik, dan saya berharap akan ada versi yang lebih baik di masa depan.
Musik synthwave yang enak didengar saat coding mulai terasa membosankan, dan saya sedang mencari sesuatu yang baru; AI tampaknya bisa menghasilkan playlist "cukup bagus" tanpa batas.
Saya gagal menghasilkan sesuatu yang menarik dengan AI. Situsnya sulit digunakan.
Saya penasaran apakah ada antarmuka bergaya ComfyUI untuk model audio.