Demo Stable Audio

(stability-ai.github.io)

1 poin oleh GN⁺ 2024-02-14 | 1 komentar | Bagikan ke WhatsApp

Demo Stable Audio menampilkan contoh audio bagaimana satu model dapat menghasilkan musik berdurasi panjang dan efek suara dalam format stereo 44.1kHz
Pembuatan musik berfokus pada kemampuan menghasilkan genre dan nuansa yang berbeda hanya dengan prompt, seperti Berlin techno, uplifting acoustic loop, disco, spa lobby meditation, dan drum solo
Efek suara mencakup door slam, sports car, motorbike, fireworks, dan cave footsteps, dengan frasa seperti "high-quality, stereo" juga digunakan dalam prompt
Contoh perbandingan disusun agar hasil dari MusicGen-large, MusicGen-stereo, AudioLDM2, dan Audiogen-medium dapat didengarkan berdampingan berdasarkan prompt MusicCaps dan AudioCaps
Contoh rekonstruksi autoencoder memungkinkan pengecekan fidelitas audio dengan membandingkan rekaman asli dan hasil setelah melewati model

Demo Stable Audio dan contoh generasi

Situs demo mungkin tidak berfungsi dengan baik di Safari, dan untuk pengalaman terbaik disarankan menggunakan Google Chrome
Materi terkait yang disediakan meliputi arXiv, stable-audio-tools, dan stable-audio-metrics
- arXiv: makalah Stable Audio
- stable-audio-tools: kode untuk mereproduksi Stable Audio
- stable-audio-metrics: kode untuk evaluasi Stable Audio
Model ini dapat menghasilkan musik stereo berdurasi panjang dengan panjang variabel pada 44.1kHz
- Prompt contoh mencakup Berlin techno, uplifting acoustic loop, disco, calm meditation music, dan drum solo
- Beberapa prompt juga menentukan BPM, instrumen, suasana, gaya regional, hingga apakah berupa loop
Model yang sama juga menghasilkan efek suara stereo pada 44.1kHz
- Prompt contoh mencakup door slam, sports car passing by, motorbike passing by, fireworks, dan reverberant footsteps inside a large rocky cave
- Pada prompt efek suara ditambahkan frasa “high-quality, stereo”, dan dijelaskan bahwa pendekatan ini umumnya membantu

Perbandingan model dan rekonstruksi autoencoder

Perbandingan musik berdurasi panjang disusun berdasarkan prompt MusicCaps
- Stable Audio: stereo, 44.1kHz
- MusicGen-large: mono, 32kHz
- MusicGen-stereo: stereo, 32kHz
- AudioLDM2: mono, 48kHz
- Prompt dan audio yang digunakan dalam perbandingan dipakai dalam studi kualitatif yang dilaporkan di makalah
Perbandingan efek suara menggunakan prompt AudioCaps
- Stable Audio: stereo, 44.1kHz
- Audiogen-medium: mono, 32kHz
- AudioLDM2: mono, 48kHz
- Prompt AudioCaps yang dipilih secara acak tidak menuntut pergerakan stereo yang besar, sehingga hasilnya dirender relatif nonspasial
Bagian autoencoder menyediakan perbandingan rekonstruksi untuk mengevaluasi fidelitas audio
- Di sebelah kiri ditempatkan rekaman ground truth, dan di sebelah kanan hasil setelah rekaman ground truth dilewatkan melalui autoencoder
- Hasil rekonstruksi cukup transparan dan sangat dekat dengan ground truth

1 komentar

GN⁺ 2024-02-14

Opini Hacker News

Menariknya, Ed Newton-Rex, yang direkrut untuk membuat Stable Audio, keluar tak lama setelah peluncuran karena khawatir soal hak cipta dan data pelatihan
Setelah itu ia mendirikan https://www.fairlytrained.org/
Referensi: https://x.com/ednewtonrex
- Dalam model generatif, jika pembuatnya tidak mengungkapkan struktur model, dan model itu mengubah teks menjadi media lain, wajar untuk menganggap bahwa sebagian fungsinya didelegasikan ke text encoder, atau komponen serupa, yang dilatih dengan data tanpa lisensi eksplisit
  Bahkan bagi pemegang hak yang memiliki puluhan juta hingga ratusan juta item pustaka seperti gambar atau potongan audio, kurang dari 1 miliar token teks di repositori besar saja membuat kinerja encoder untuk model generatif teks-ke-media-target terlalu rendah. Firefly milik Adobe juga termasuk di sini
  Anggapan bahwa banyaknya data serupa di pustaka semacam ini sangat berguna juga keliru. Tanpa text encoder yang kuat, sebagian besar model teks-ke-media-target akan menghasilkan keluaran yang tampak atau terdengar sangat rata-rata
  Cara paling sederhana untuk menghapus kecurigaan ini adalah membuka struktur model
  Bagaimanapun, sekalipun semua itu benar, alasan kita membicarakan model difusi dan memperhatikan pekerjaan seperti Fairly Trained adalah karena ada pihak yang melatihnya dengan data tanpa lisensi eksplisit
- Menyebutnya “orang yang direkrut untuk membuat Stable Audio” agak menyesatkan. Ia memegang posisi eksekutif sebagai VP Produk untuk grup audio Stability
  Itu memang posisi penting, tetapi frasa “direkrut untuk membuatnya” membuat orang membayangkan lead developer atau peneliti
  Jika melihat bahwa ia adalah founder dengan latar belakang musik, keputusannya keluar jadi lebih masuk akal
- Ini interpretasi yang menarik, tetapi ketika ia bergabung dengan Stability, cara pelatihan Stable Diffusion sudah dikenal luas, jadi posisinya juga cukup aneh
- Walaupun perusahaan itu toh akan melakukannya, rasanya hal seperti itu bisa dipikirkan sebelum bekerja di sana
  Atau mungkin itu memang proses yang diperlukan untuk model bisnis sertifikasinya sendiri
- Harus ada solusi untuk hambatan hak cipta yang dihadapi perusahaan saat melatih model
  Menurut saya ini tidak berbeda dari seorang seniman yang membuat musik dengan dipengaruhi musik yang ia dengar sepanjang hidupnya. Pada dasarnya ini persis hal yang sama, dan musik maupun seni tidak bisa dibuat dalam ruang hampa
Warning: This website may not function properly on Safari. For the best experience, please use Google Chrome.
Rasanya seperti kembali berputar ke era Internet Explorer tahun 90-an. Bedanya kali ini, menurut saya browser dominannya setidaknya open source
Semoga ada yang membuat tombol GIF bergerak untuk Chrome bertuliskan “Best viewed with Google Chrome”
- Ada di sini
  Lihat tombol: https://indiscipline.github.io/post/best-viewed-in-google-ch...
- Chrome bukan open source; yang open source adalah Chromium. Sebaiknya jangan mencampuradukkan keduanya
- Di Safari pun situs webnya berjalan baik, dan saya tidak merasakan masalah berarti
Seperti Stable Diffusion, pada model ini pun prompt teks kemungkinan akan menjadi cara yang paling sulit dikendalikan untuk mendapatkan output yang berguna
Mudah membayangkan MIDI dipakai sebagai input bersama ControlNet sehingga pada dasarnya menjadi synthesizer jaringan saraf
- Benar. Sejak mengerjakan proyek melodi AI 2 tahun lalu (https://www.melodies.ai/), saya sudah merasa bahwa membuat lagu utuh berkualitas tinggi hanya dari teks tidak akan layak ataupun diinginkan untuk sementara waktu
  Sebaliknya, lebih baik fokus menggunakan AI untuk membantu proses artis di berbagai tahap produksi musik
- Untuk musik mungkin begitu. Namun untuk efek suara, menurut saya prompt teks adalah antarmuka pengguna yang cukup bagus
- Idealnya, input berupa rekaman audio orang menyenandungkan atau menyanyikan melodi digabung dengan prompt teks, lalu sistem mengeluarkan track yang mirip dengannya
- Ini bekerja baik ketika tidak perlu banyak kontrol. Misalnya prompt seperti “solo free jazz oleh pemain saksofon tenor, tanpa tanda birama”
- Selain prompt teks, input lain apa yang ada di Stable Diffusion? Maksudnya seperti img2img, ControlNet, begitu?
Dibandingkan model musik terbaru seperti MusicGen dan MusicLM, ini jauh lebih bagus. Sepertinya juga ada halaman produk yang bisa dipakai dengan berlangganan seperti Midjourney: https://www.stableaudio.com/
Sayangnya ini bukan model dengan bobot terbuka, dan sepertinya juga tidak ada API. Caranya adalah membuat audio lewat UI dengan langganan bulanan, bukan bentuk yang bisa diintegrasikan atau dibungkus oleh developer
- Saya ingin membuat efek suara untuk game yang sedang saya kerjakan, tetapi setelah dilihat, tampaknya perlu lisensi enterprise (https://www.stableaudio.com/pricing)
  Saya penasaran kenapa itu tidak langsung masuk dalam klausul “produk komersial dengan kurang dari 100 ribu pengguna aktif bulanan” dan malah punya klausul terpisah
- Katanya versi berlisensi CC dan API akan segera hadir
  Laju perkembangan model sangat cepat, jadi ini sepertinya akan menjadi tahun yang cukup besar untuk musik
- Untungnya, pelatihan juga bisa dilakukan di rumah. Pertanyaan yang lebih besar adalah data
Saya rasa masih diperlukan tahap di mana AI terlebih dahulu mempelajari seperti apa bunyi sound library berkualitas tinggi, lalu menerapkan kemampuan yang sudah dipelajari itu untuk memicu bunyi dari library tersebut lewat MIDI
Dengan begitu, kita bisa mendapatkan kreativitas AI musik sekaligus kualitas audio yang sempurna
- Saya juga selalu menginginkan hal seperti itu pada AI pembuat gambar. Daripada gambar jadi yang seolah-olah diperbaiki berulang secara ajaib, rasanya jauh lebih keren dan menarik melihat AI mencoba melukis dengan sapuan kuas atau mewarnai
  Saya tidak tahu dataset atau struktur seperti apa yang bisa diterapkan untuk itu, tapi pasti akan sangat menarik
- Dengan MIDI, misalnya, bagaimana cara mendapatkan gitar yang dimainkan secara kasar, atau gema halus yang muncul dari rekaman di kamar mandi?
- Bukankah itu yang dilakukan suno.ai?
Saya tidak bermaksud meremehkan kemajuan di sini, dan memang mengesankan
Dari sudut pandang drummer, “solo drum” termasuk yang paling membosankan, dan ada bunyi-bunyi aneh yang tercampur. Pada akhirnya mungkin tergantung audiens yang dituju
Sebagai catatan, untuk saat ini efek suaranya juga tidak terdengar realistis di telinga saya
Meski begitu, kemajuannya besar, dan ini pekerjaan yang bagus
- Dari sudut pandang drummer, jika dianggap terjadi di atas beat 4/4 yang stabil, “solo drum” itu ternyata cukup menarik untuk didengarkan
  Karena sifatnya yang tampak acak tapi tidak sepenuhnya acak, muncul pola ritme yang cukup tidak beraturan. Akan menyenangkan kalau bisa memasukkan sinkopasi seperti ini secara spontan
  Jangan minta saya menuliskannya ke notasi
  Konsistensi temponya sangat bagus. Namun noise yang tidak perlu dan dengung simbal acak menunjukkan keterbatasan model
- Ini memang percobaan yang mengesankan, tetapi masih sangat jauh untuk benar-benar menghasilkan musik atau suara yang layak dipakai
  Sudah ada jutaan track musik library dan efek suara yang terdengar jauh lebih baik. Untuk bersaing dengan itu, AI generatif akan membutuhkan investasi besar, dan berbeda dengan teks atau gambar, saya tidak melihat ekonominya masuk akal
- Saya lebih kecewa karena sampel musiknya tidak memiliki transisi. Sebagian besar lagu memiliki modulasi atau transisi perkusi
- Solo drum itu menunjukkan dengan baik betapa model ini melewatkan inti dari solo drum. Saya bukan drummer, tetapi sama sekali tidak enak didengar
  Terdengar seperti seseorang yang asal memukul drum kira-kira mengikuti tempo
  Namun hal-hal seperti musik lift lumayan berhasil, dan itu juga sesuai dugaan
Menarik bahwa mereka membuka kode dan panduan ramah untuk pelatihan, tetapi tidak membuka modelnya
Rasanya seperti hampir memohon orang-orang anonim untuk menghubungkan data loader ke akun Apple Music mereka dan menjalankannya sesuka hati. Tentu saja, bukan berarti ada yang menyarankan begitu
- Kalau menebak, mungkin syarat dari AudioSparx untuk menyediakan stock audio library berlisensi untuk pelatihan mencakup klausul yang melarang redistribusi model hasilnya
Saya sempat berharap pada ide pembuatan efek suara, tetapi “suara langkah kaki” itu luar biasa buruk
- Saya mencoba membuat musik di stableaudio.com, dan ya, hasilnya buruk. Namun laju pengembangan model seperti ini sangat cepat, jadi saya tidak akan terkejut kalau dalam 1–2 tahun menjadi sangat bagus
Benar tidak ada bobot publik? Sulit menemukan pernyataan yang jelas ke arah mana
Sunting: Oh, saya tidak tahu ini komentar yang bisa memicu kontroversi. Akan lebih baik kalau ada yang menjawab pertanyaannya sebelum memberi downvote, tapi ya tidak apa-apa
- Benar, tidak ada. Mereka membuka kode untuk pelatihan, inferensi, dan fine-tuning, tetapi tidak membuka dataset atau bobot
  Referensi: https://github.com/Stability-AI/stable-audio-tools
“Untuk prompt efek suara, kami biasanya menambahkan ‘high-quality, stereo’ karena biasanya membantu.”
Lucu bahwa mereka menemukan output LLM membaik kalau kita mengatakannya dengan sopan agar membuat hasil yang lebih baik
- Kadang-kadang kita mungkin justru menginginkan suara kaset lama, atau suara piringan 78rpm yang lebih tua dan tergores
  Seperti biasa dengan komputer, ia melakukan apa yang kita minta, bukan apa yang kita maksud

Demo Stable Audio

Demo Stable Audio dan contoh generasi

Perbandingan model dan rekonstruksi autoencoder

Bacaan terkait

1 komentar

Opini Hacker News