- Model difusi laten (Latent Diffusion Model)
- Model difusi yang beroperasi di ruang pengodean laten dari autoencoder yang telah dipra-latih
- Secara signifikan meningkatkan kecepatan pelatihan dan inferensi model difusi
- Salah satu masalah utama saat menghasilkan audio menggunakan model difusi adalah bahwa model difusi umumnya dilatih untuk menghasilkan keluaran berukuran tetap
- Jika dilatih pada klip audio 30 detik, maka audio hanya dapat dihasilkan dalam satuan 30 detik
- Ini menjadi masalah ketika ingin melatih dan menghasilkan audio dengan panjang yang sangat bervariasi, seperti saat membuat lagu utuh
- Model difusi audio cenderung dilatih dengan memotong atau menambahkan padding pada chunk audio yang diambil secara acak dari file audio panjang agar sesuai dengan panjang pelatihan model difusi
- Dalam musik, hal ini membuat model cenderung menghasilkan bagian lagu acak yang dimulai atau diakhiri di tengah frasa musik
- Stable Audio adalah model difusi laten untuk audio yang dikondisikan tidak hanya oleh panjang file audio dan waktu mulai, tetapi juga oleh metadata teks
- Fitur kontrol timing ini memungkinkan pembuatan audio dengan panjang yang ditentukan hingga ukuran jendela pelatihan
- Model Stable Audio yang menggunakan teknik sampling difusi terbaru dapat menghasilkan audio stereo berdurasi 95 detik pada sample rate 44.1kHz dalam waktu kurang dari 1 detik di GPU NVIDIA A100
- Dikembangkan oleh Harmonai, lab riset Generative Audio milik Stability AI
- Berdasarkan model U-Net 907M (907 juta) parameter yang digunakan di Moûsai
- Model Stable Audio dilatih dengan dataset yang terdiri dari lebih dari 800.000 file audio berisi musik, efek suara, dan stem instrumen tunggal yang disediakan oleh pemasok musik besar bernama AudioSparx
- Pekerjaan selanjutnya akan berfokus pada peningkatan arsitektur model, dataset, dan prosedur pelatihan untuk meningkatkan kualitas output, tingkat kontrol, kecepatan inferensi, dan panjang output
- Harmonai berencana merilis model open source berbasis Stable Audio serta kode pelatihan untuk melatih model generasi audio
1 komentar
Opini Hacker News