Demo Stable Audio
(stability-ai.github.io)- Demo Stable Audio menampilkan contoh audio bagaimana satu model dapat menghasilkan musik berdurasi panjang dan efek suara dalam format stereo 44.1kHz
- Pembuatan musik berfokus pada kemampuan menghasilkan genre dan nuansa yang berbeda hanya dengan prompt, seperti Berlin techno, uplifting acoustic loop, disco, spa lobby meditation, dan drum solo
- Efek suara mencakup door slam, sports car, motorbike, fireworks, dan cave footsteps, dengan frasa seperti "high-quality, stereo" juga digunakan dalam prompt
- Contoh perbandingan disusun agar hasil dari MusicGen-large, MusicGen-stereo, AudioLDM2, dan Audiogen-medium dapat didengarkan berdampingan berdasarkan prompt MusicCaps dan AudioCaps
- Contoh rekonstruksi autoencoder memungkinkan pengecekan fidelitas audio dengan membandingkan rekaman asli dan hasil setelah melewati model
Demo Stable Audio dan contoh generasi
- Situs demo mungkin tidak berfungsi dengan baik di Safari, dan untuk pengalaman terbaik disarankan menggunakan Google Chrome
- Materi terkait yang disediakan meliputi
arXiv,stable-audio-tools, danstable-audio-metricsarXiv: makalah Stable Audiostable-audio-tools: kode untuk mereproduksi Stable Audiostable-audio-metrics: kode untuk evaluasi Stable Audio
- Model ini dapat menghasilkan musik stereo berdurasi panjang dengan panjang variabel pada 44.1kHz
- Prompt contoh mencakup Berlin techno, uplifting acoustic loop, disco, calm meditation music, dan drum solo
- Beberapa prompt juga menentukan BPM, instrumen, suasana, gaya regional, hingga apakah berupa loop
- Model yang sama juga menghasilkan efek suara stereo pada 44.1kHz
- Prompt contoh mencakup door slam, sports car passing by, motorbike passing by, fireworks, dan reverberant footsteps inside a large rocky cave
- Pada prompt efek suara ditambahkan frasa “high-quality, stereo”, dan dijelaskan bahwa pendekatan ini umumnya membantu
Perbandingan model dan rekonstruksi autoencoder
- Perbandingan musik berdurasi panjang disusun berdasarkan prompt MusicCaps
- Stable Audio: stereo, 44.1kHz
- MusicGen-large: mono, 32kHz
- MusicGen-stereo: stereo, 32kHz
- AudioLDM2: mono, 48kHz
- Prompt dan audio yang digunakan dalam perbandingan dipakai dalam studi kualitatif yang dilaporkan di makalah
- Perbandingan efek suara menggunakan prompt AudioCaps
- Stable Audio: stereo, 44.1kHz
- Audiogen-medium: mono, 32kHz
- AudioLDM2: mono, 48kHz
- Prompt AudioCaps yang dipilih secara acak tidak menuntut pergerakan stereo yang besar, sehingga hasilnya dirender relatif nonspasial
- Bagian autoencoder menyediakan perbandingan rekonstruksi untuk mengevaluasi fidelitas audio
- Di sebelah kiri ditempatkan rekaman ground truth, dan di sebelah kanan hasil setelah rekaman ground truth dilewatkan melalui autoencoder
- Hasil rekonstruksi cukup transparan dan sangat dekat dengan ground truth
1 komentar
Opini Hacker News
Menariknya, Ed Newton-Rex, yang direkrut untuk membuat Stable Audio, keluar tak lama setelah peluncuran karena khawatir soal hak cipta dan data pelatihan
Setelah itu ia mendirikan https://www.fairlytrained.org/
Referensi: https://x.com/ednewtonrex
Bahkan bagi pemegang hak yang memiliki puluhan juta hingga ratusan juta item pustaka seperti gambar atau potongan audio, kurang dari 1 miliar token teks di repositori besar saja membuat kinerja encoder untuk model generatif teks-ke-media-target terlalu rendah. Firefly milik Adobe juga termasuk di sini
Anggapan bahwa banyaknya data serupa di pustaka semacam ini sangat berguna juga keliru. Tanpa text encoder yang kuat, sebagian besar model teks-ke-media-target akan menghasilkan keluaran yang tampak atau terdengar sangat rata-rata
Cara paling sederhana untuk menghapus kecurigaan ini adalah membuka struktur model
Bagaimanapun, sekalipun semua itu benar, alasan kita membicarakan model difusi dan memperhatikan pekerjaan seperti Fairly Trained adalah karena ada pihak yang melatihnya dengan data tanpa lisensi eksplisit
Itu memang posisi penting, tetapi frasa “direkrut untuk membuatnya” membuat orang membayangkan lead developer atau peneliti
Jika melihat bahwa ia adalah founder dengan latar belakang musik, keputusannya keluar jadi lebih masuk akal
Atau mungkin itu memang proses yang diperlukan untuk model bisnis sertifikasinya sendiri
Menurut saya ini tidak berbeda dari seorang seniman yang membuat musik dengan dipengaruhi musik yang ia dengar sepanjang hidupnya. Pada dasarnya ini persis hal yang sama, dan musik maupun seni tidak bisa dibuat dalam ruang hampa
Warning: This website may not function properly on Safari. For the best experience, please use Google Chrome.Rasanya seperti kembali berputar ke era Internet Explorer tahun 90-an. Bedanya kali ini, menurut saya browser dominannya setidaknya open source
Semoga ada yang membuat tombol GIF bergerak untuk Chrome bertuliskan “Best viewed with Google Chrome”
Lihat tombol: https://indiscipline.github.io/post/best-viewed-in-google-ch...
Seperti Stable Diffusion, pada model ini pun prompt teks kemungkinan akan menjadi cara yang paling sulit dikendalikan untuk mendapatkan output yang berguna
Mudah membayangkan MIDI dipakai sebagai input bersama ControlNet sehingga pada dasarnya menjadi synthesizer jaringan saraf
Sebaliknya, lebih baik fokus menggunakan AI untuk membantu proses artis di berbagai tahap produksi musik
Dibandingkan model musik terbaru seperti MusicGen dan MusicLM, ini jauh lebih bagus. Sepertinya juga ada halaman produk yang bisa dipakai dengan berlangganan seperti Midjourney: https://www.stableaudio.com/
Sayangnya ini bukan model dengan bobot terbuka, dan sepertinya juga tidak ada API. Caranya adalah membuat audio lewat UI dengan langganan bulanan, bukan bentuk yang bisa diintegrasikan atau dibungkus oleh developer
Saya penasaran kenapa itu tidak langsung masuk dalam klausul “produk komersial dengan kurang dari 100 ribu pengguna aktif bulanan” dan malah punya klausul terpisah
Laju perkembangan model sangat cepat, jadi ini sepertinya akan menjadi tahun yang cukup besar untuk musik
Saya rasa masih diperlukan tahap di mana AI terlebih dahulu mempelajari seperti apa bunyi sound library berkualitas tinggi, lalu menerapkan kemampuan yang sudah dipelajari itu untuk memicu bunyi dari library tersebut lewat MIDI
Dengan begitu, kita bisa mendapatkan kreativitas AI musik sekaligus kualitas audio yang sempurna
Saya tidak tahu dataset atau struktur seperti apa yang bisa diterapkan untuk itu, tapi pasti akan sangat menarik
Saya tidak bermaksud meremehkan kemajuan di sini, dan memang mengesankan
Dari sudut pandang drummer, “solo drum” termasuk yang paling membosankan, dan ada bunyi-bunyi aneh yang tercampur. Pada akhirnya mungkin tergantung audiens yang dituju
Sebagai catatan, untuk saat ini efek suaranya juga tidak terdengar realistis di telinga saya
Meski begitu, kemajuannya besar, dan ini pekerjaan yang bagus
Karena sifatnya yang tampak acak tapi tidak sepenuhnya acak, muncul pola ritme yang cukup tidak beraturan. Akan menyenangkan kalau bisa memasukkan sinkopasi seperti ini secara spontan
Jangan minta saya menuliskannya ke notasi
Konsistensi temponya sangat bagus. Namun noise yang tidak perlu dan dengung simbal acak menunjukkan keterbatasan model
Sudah ada jutaan track musik library dan efek suara yang terdengar jauh lebih baik. Untuk bersaing dengan itu, AI generatif akan membutuhkan investasi besar, dan berbeda dengan teks atau gambar, saya tidak melihat ekonominya masuk akal
Terdengar seperti seseorang yang asal memukul drum kira-kira mengikuti tempo
Namun hal-hal seperti musik lift lumayan berhasil, dan itu juga sesuai dugaan
Menarik bahwa mereka membuka kode dan panduan ramah untuk pelatihan, tetapi tidak membuka modelnya
Rasanya seperti hampir memohon orang-orang anonim untuk menghubungkan data loader ke akun Apple Music mereka dan menjalankannya sesuka hati. Tentu saja, bukan berarti ada yang menyarankan begitu
Saya sempat berharap pada ide pembuatan efek suara, tetapi “suara langkah kaki” itu luar biasa buruk
Benar tidak ada bobot publik? Sulit menemukan pernyataan yang jelas ke arah mana
Sunting: Oh, saya tidak tahu ini komentar yang bisa memicu kontroversi. Akan lebih baik kalau ada yang menjawab pertanyaannya sebelum memberi downvote, tapi ya tidak apa-apa
Referensi: https://github.com/Stability-AI/stable-audio-tools
“Untuk prompt efek suara, kami biasanya menambahkan ‘high-quality, stereo’ karena biasanya membantu.”
Lucu bahwa mereka menemukan output LLM membaik kalau kita mengatakannya dengan sopan agar membuat hasil yang lebih baik
Seperti biasa dengan komputer, ia melakukan apa yang kita minta, bukan apa yang kita maksud