5 poin oleh GN⁺ 2023-09-14 | 1 komentar | Bagikan ke WhatsApp
  • Model difusi laten (Latent Diffusion Model)
    • Model difusi yang beroperasi di ruang pengodean laten dari autoencoder yang telah dipra-latih
    • Secara signifikan meningkatkan kecepatan pelatihan dan inferensi model difusi
  • Salah satu masalah utama saat menghasilkan audio menggunakan model difusi adalah bahwa model difusi umumnya dilatih untuk menghasilkan keluaran berukuran tetap
    • Jika dilatih pada klip audio 30 detik, maka audio hanya dapat dihasilkan dalam satuan 30 detik
    • Ini menjadi masalah ketika ingin melatih dan menghasilkan audio dengan panjang yang sangat bervariasi, seperti saat membuat lagu utuh
  • Model difusi audio cenderung dilatih dengan memotong atau menambahkan padding pada chunk audio yang diambil secara acak dari file audio panjang agar sesuai dengan panjang pelatihan model difusi
  • Dalam musik, hal ini membuat model cenderung menghasilkan bagian lagu acak yang dimulai atau diakhiri di tengah frasa musik
  • Stable Audio adalah model difusi laten untuk audio yang dikondisikan tidak hanya oleh panjang file audio dan waktu mulai, tetapi juga oleh metadata teks
    • Fitur kontrol timing ini memungkinkan pembuatan audio dengan panjang yang ditentukan hingga ukuran jendela pelatihan
  • Model Stable Audio yang menggunakan teknik sampling difusi terbaru dapat menghasilkan audio stereo berdurasi 95 detik pada sample rate 44.1kHz dalam waktu kurang dari 1 detik di GPU NVIDIA A100
  • Dikembangkan oleh Harmonai, lab riset Generative Audio milik Stability AI
  • Berdasarkan model U-Net 907M (907 juta) parameter yang digunakan di Moûsai
  • Model Stable Audio dilatih dengan dataset yang terdiri dari lebih dari 800.000 file audio berisi musik, efek suara, dan stem instrumen tunggal yang disediakan oleh pemasok musik besar bernama AudioSparx
  • Pekerjaan selanjutnya akan berfokus pada peningkatan arsitektur model, dataset, dan prosedur pelatihan untuk meningkatkan kualitas output, tingkat kontrol, kecepatan inferensi, dan panjang output
  • Harmonai berencana merilis model open source berbasis Stable Audio serta kode pelatihan untuk melatih model generasi audio

1 komentar

 
GN⁺ 2023-09-14
Opini Hacker News
  • Artikel ini membahas 'Stable Audio', teknologi latent audio diffusion dengan kondisi timing yang cepat.
  • Sebagian pengguna menilai musik piano solo yang dihasilkan terdengar rapi dan menarik, serta mengusulkan bahwa hasilnya dapat dengan mudah dikonversi menjadi partitur agar bisa dimanfaatkan dengan lebih fleksibel.
  • Ada kebutuhan agar AI di bidang audio dan visual dapat menghasilkan output yang lebih terstruktur atau simbolik, seperti layer atau brush stroke pada gambar, maupun track penyusun pada musik.
  • Khususnya, beberapa pengguna yang memiliki latar belakang musik tidak terkesan dengan karya musik yang dihasilkan, dan menilainya repetitif serta kurang imajinatif.
  • Teknologi ini berpotensi digunakan untuk menghasilkan musik latar bagi game atau aplikasi lain yang tidak memprioritaskan musik berkualitas tinggi.
  • Seorang pengguna mengusulkan bahwa teknologi ini dapat digunakan di Spotify untuk menghasilkan musik yang sesuai dengan selera pribadi seseorang.
  • Ada ketertarikan pada apakah model ini mendukung atau "memahami" konsep audio spasial, misalnya suara alarm yang bergerak melingkar.
  • Sebagian pengguna menyatakan kebutuhan akan teknologi yang dapat menerima input seperti melodi, progresi akor, atau data pertunjukan, yang menunjukkan potensi bagi generasi baru alat audio.
  • Sebagian pengguna menyoroti efek "uncanny valley" pada contoh audio, yang berarti suara terdengar tercampur dan tidak memiliki karakter musikal yang bersih.
  • Terlepas dari kritik tersebut, sebagian pengguna menyampaikan rasa syukur atas keberadaan teknologi seperti ini, dan membandingkannya dengan ejekan sebelumnya dari perusahaan seperti Google dan Meta.