Stable Audio - Latent Audio Diffusion dengan kontrol timing yang efisien

Model difusi laten (Latent Diffusion Model)
- Model difusi yang beroperasi di ruang pengodean laten dari autoencoder yang telah dipra-latih
- Secara signifikan meningkatkan kecepatan pelatihan dan inferensi model difusi
Salah satu masalah utama saat menghasilkan audio menggunakan model difusi adalah bahwa model difusi umumnya dilatih untuk menghasilkan keluaran berukuran tetap
- Jika dilatih pada klip audio 30 detik, maka audio hanya dapat dihasilkan dalam satuan 30 detik
- Ini menjadi masalah ketika ingin melatih dan menghasilkan audio dengan panjang yang sangat bervariasi, seperti saat membuat lagu utuh
Model difusi audio cenderung dilatih dengan memotong atau menambahkan padding pada chunk audio yang diambil secara acak dari file audio panjang agar sesuai dengan panjang pelatihan model difusi
Dalam musik, hal ini membuat model cenderung menghasilkan bagian lagu acak yang dimulai atau diakhiri di tengah frasa musik
Stable Audio adalah model difusi laten untuk audio yang dikondisikan tidak hanya oleh panjang file audio dan waktu mulai, tetapi juga oleh metadata teks
- Fitur kontrol timing ini memungkinkan pembuatan audio dengan panjang yang ditentukan hingga ukuran jendela pelatihan
Model Stable Audio yang menggunakan teknik sampling difusi terbaru dapat menghasilkan audio stereo berdurasi 95 detik pada sample rate 44.1kHz dalam waktu kurang dari 1 detik di GPU NVIDIA A100
Dikembangkan oleh Harmonai, lab riset Generative Audio milik Stability AI
Berdasarkan model U-Net 907M (907 juta) parameter yang digunakan di Moûsai
Model Stable Audio dilatih dengan dataset yang terdiri dari lebih dari 800.000 file audio berisi musik, efek suara, dan stem instrumen tunggal yang disediakan oleh pemasok musik besar bernama AudioSparx
Pekerjaan selanjutnya akan berfokus pada peningkatan arsitektur model, dataset, dan prosedur pelatihan untuk meningkatkan kualitas output, tingkat kontrol, kecepatan inferensi, dan panjang output
Harmonai berencana merilis model open source berbasis Stable Audio serta kode pelatihan untuk melatih model generasi audio

1 komentar

GN⁺ 2023-09-14

Opini Hacker News

Artikel ini membahas 'Stable Audio', teknologi latent audio diffusion dengan kondisi timing yang cepat.
Sebagian pengguna menilai musik piano solo yang dihasilkan terdengar rapi dan menarik, serta mengusulkan bahwa hasilnya dapat dengan mudah dikonversi menjadi partitur agar bisa dimanfaatkan dengan lebih fleksibel.
Ada kebutuhan agar AI di bidang audio dan visual dapat menghasilkan output yang lebih terstruktur atau simbolik, seperti layer atau brush stroke pada gambar, maupun track penyusun pada musik.
Khususnya, beberapa pengguna yang memiliki latar belakang musik tidak terkesan dengan karya musik yang dihasilkan, dan menilainya repetitif serta kurang imajinatif.
Teknologi ini berpotensi digunakan untuk menghasilkan musik latar bagi game atau aplikasi lain yang tidak memprioritaskan musik berkualitas tinggi.
Seorang pengguna mengusulkan bahwa teknologi ini dapat digunakan di Spotify untuk menghasilkan musik yang sesuai dengan selera pribadi seseorang.
Ada ketertarikan pada apakah model ini mendukung atau "memahami" konsep audio spasial, misalnya suara alarm yang bergerak melingkar.
Sebagian pengguna menyatakan kebutuhan akan teknologi yang dapat menerima input seperti melodi, progresi akor, atau data pertunjukan, yang menunjukkan potensi bagi generasi baru alat audio.
Sebagian pengguna menyoroti efek "uncanny valley" pada contoh audio, yang berarti suara terdengar tercampur dan tidak memiliki karakter musikal yang bersih.
Terlepas dari kritik tersebut, sebagian pengguna menyampaikan rasa syukur atas keberadaan teknologi seperti ini, dan membandingkannya dengan ejekan sebelumnya dari perusahaan seperti Google dan Meta.

Stable Audio - Latent Audio Diffusion dengan kontrol timing yang efisien

Bacaan terkait

1 komentar

Opini Hacker News