1 poin oleh GN⁺ 2024-02-14 | 1 komentar | Bagikan ke WhatsApp
  • Demo Stable Audio menampilkan contoh audio bagaimana satu model dapat menghasilkan musik berdurasi panjang dan efek suara dalam format stereo 44.1kHz
  • Pembuatan musik berfokus pada kemampuan menghasilkan genre dan nuansa yang berbeda hanya dengan prompt, seperti Berlin techno, uplifting acoustic loop, disco, spa lobby meditation, dan drum solo
  • Efek suara mencakup door slam, sports car, motorbike, fireworks, dan cave footsteps, dengan frasa seperti "high-quality, stereo" juga digunakan dalam prompt
  • Contoh perbandingan disusun agar hasil dari MusicGen-large, MusicGen-stereo, AudioLDM2, dan Audiogen-medium dapat didengarkan berdampingan berdasarkan prompt MusicCaps dan AudioCaps
  • Contoh rekonstruksi autoencoder memungkinkan pengecekan fidelitas audio dengan membandingkan rekaman asli dan hasil setelah melewati model

Demo Stable Audio dan contoh generasi

  • Situs demo mungkin tidak berfungsi dengan baik di Safari, dan untuk pengalaman terbaik disarankan menggunakan Google Chrome
  • Materi terkait yang disediakan meliputi arXiv, stable-audio-tools, dan stable-audio-metrics
    • arXiv: makalah Stable Audio
    • stable-audio-tools: kode untuk mereproduksi Stable Audio
    • stable-audio-metrics: kode untuk evaluasi Stable Audio
  • Model ini dapat menghasilkan musik stereo berdurasi panjang dengan panjang variabel pada 44.1kHz
    • Prompt contoh mencakup Berlin techno, uplifting acoustic loop, disco, calm meditation music, dan drum solo
    • Beberapa prompt juga menentukan BPM, instrumen, suasana, gaya regional, hingga apakah berupa loop
  • Model yang sama juga menghasilkan efek suara stereo pada 44.1kHz
    • Prompt contoh mencakup door slam, sports car passing by, motorbike passing by, fireworks, dan reverberant footsteps inside a large rocky cave
    • Pada prompt efek suara ditambahkan frasa “high-quality, stereo”, dan dijelaskan bahwa pendekatan ini umumnya membantu

Perbandingan model dan rekonstruksi autoencoder

  • Perbandingan musik berdurasi panjang disusun berdasarkan prompt MusicCaps
    • Stable Audio: stereo, 44.1kHz
    • MusicGen-large: mono, 32kHz
    • MusicGen-stereo: stereo, 32kHz
    • AudioLDM2: mono, 48kHz
    • Prompt dan audio yang digunakan dalam perbandingan dipakai dalam studi kualitatif yang dilaporkan di makalah
  • Perbandingan efek suara menggunakan prompt AudioCaps
    • Stable Audio: stereo, 44.1kHz
    • Audiogen-medium: mono, 32kHz
    • AudioLDM2: mono, 48kHz
    • Prompt AudioCaps yang dipilih secara acak tidak menuntut pergerakan stereo yang besar, sehingga hasilnya dirender relatif nonspasial
  • Bagian autoencoder menyediakan perbandingan rekonstruksi untuk mengevaluasi fidelitas audio
    • Di sebelah kiri ditempatkan rekaman ground truth, dan di sebelah kanan hasil setelah rekaman ground truth dilewatkan melalui autoencoder
    • Hasil rekonstruksi cukup transparan dan sangat dekat dengan ground truth

1 komentar

 
GN⁺ 2024-02-14
Opini Hacker News
  • Menariknya, Ed Newton-Rex, yang direkrut untuk membuat Stable Audio, keluar tak lama setelah peluncuran karena khawatir soal hak cipta dan data pelatihan
    Setelah itu ia mendirikan https://www.fairlytrained.org/
    Referensi: https://x.com/ednewtonrex

    • Dalam model generatif, jika pembuatnya tidak mengungkapkan struktur model, dan model itu mengubah teks menjadi media lain, wajar untuk menganggap bahwa sebagian fungsinya didelegasikan ke text encoder, atau komponen serupa, yang dilatih dengan data tanpa lisensi eksplisit
      Bahkan bagi pemegang hak yang memiliki puluhan juta hingga ratusan juta item pustaka seperti gambar atau potongan audio, kurang dari 1 miliar token teks di repositori besar saja membuat kinerja encoder untuk model generatif teks-ke-media-target terlalu rendah. Firefly milik Adobe juga termasuk di sini
      Anggapan bahwa banyaknya data serupa di pustaka semacam ini sangat berguna juga keliru. Tanpa text encoder yang kuat, sebagian besar model teks-ke-media-target akan menghasilkan keluaran yang tampak atau terdengar sangat rata-rata
      Cara paling sederhana untuk menghapus kecurigaan ini adalah membuka struktur model
      Bagaimanapun, sekalipun semua itu benar, alasan kita membicarakan model difusi dan memperhatikan pekerjaan seperti Fairly Trained adalah karena ada pihak yang melatihnya dengan data tanpa lisensi eksplisit
    • Menyebutnya “orang yang direkrut untuk membuat Stable Audio” agak menyesatkan. Ia memegang posisi eksekutif sebagai VP Produk untuk grup audio Stability
      Itu memang posisi penting, tetapi frasa “direkrut untuk membuatnya” membuat orang membayangkan lead developer atau peneliti
      Jika melihat bahwa ia adalah founder dengan latar belakang musik, keputusannya keluar jadi lebih masuk akal
    • Ini interpretasi yang menarik, tetapi ketika ia bergabung dengan Stability, cara pelatihan Stable Diffusion sudah dikenal luas, jadi posisinya juga cukup aneh
    • Walaupun perusahaan itu toh akan melakukannya, rasanya hal seperti itu bisa dipikirkan sebelum bekerja di sana
      Atau mungkin itu memang proses yang diperlukan untuk model bisnis sertifikasinya sendiri
    • Harus ada solusi untuk hambatan hak cipta yang dihadapi perusahaan saat melatih model
      Menurut saya ini tidak berbeda dari seorang seniman yang membuat musik dengan dipengaruhi musik yang ia dengar sepanjang hidupnya. Pada dasarnya ini persis hal yang sama, dan musik maupun seni tidak bisa dibuat dalam ruang hampa
  • Warning: This website may not function properly on Safari. For the best experience, please use Google Chrome.
    Rasanya seperti kembali berputar ke era Internet Explorer tahun 90-an. Bedanya kali ini, menurut saya browser dominannya setidaknya open source
    Semoga ada yang membuat tombol GIF bergerak untuk Chrome bertuliskan “Best viewed with Google Chrome”

  • Seperti Stable Diffusion, pada model ini pun prompt teks kemungkinan akan menjadi cara yang paling sulit dikendalikan untuk mendapatkan output yang berguna
    Mudah membayangkan MIDI dipakai sebagai input bersama ControlNet sehingga pada dasarnya menjadi synthesizer jaringan saraf

    • Benar. Sejak mengerjakan proyek melodi AI 2 tahun lalu (https://www.melodies.ai/), saya sudah merasa bahwa membuat lagu utuh berkualitas tinggi hanya dari teks tidak akan layak ataupun diinginkan untuk sementara waktu
      Sebaliknya, lebih baik fokus menggunakan AI untuk membantu proses artis di berbagai tahap produksi musik
    • Untuk musik mungkin begitu. Namun untuk efek suara, menurut saya prompt teks adalah antarmuka pengguna yang cukup bagus
    • Idealnya, input berupa rekaman audio orang menyenandungkan atau menyanyikan melodi digabung dengan prompt teks, lalu sistem mengeluarkan track yang mirip dengannya
    • Ini bekerja baik ketika tidak perlu banyak kontrol. Misalnya prompt seperti “solo free jazz oleh pemain saksofon tenor, tanpa tanda birama”
    • Selain prompt teks, input lain apa yang ada di Stable Diffusion? Maksudnya seperti img2img, ControlNet, begitu?
  • Dibandingkan model musik terbaru seperti MusicGen dan MusicLM, ini jauh lebih bagus. Sepertinya juga ada halaman produk yang bisa dipakai dengan berlangganan seperti Midjourney: https://www.stableaudio.com/
    Sayangnya ini bukan model dengan bobot terbuka, dan sepertinya juga tidak ada API. Caranya adalah membuat audio lewat UI dengan langganan bulanan, bukan bentuk yang bisa diintegrasikan atau dibungkus oleh developer

    • Saya ingin membuat efek suara untuk game yang sedang saya kerjakan, tetapi setelah dilihat, tampaknya perlu lisensi enterprise (https://www.stableaudio.com/pricing)
      Saya penasaran kenapa itu tidak langsung masuk dalam klausul “produk komersial dengan kurang dari 100 ribu pengguna aktif bulanan” dan malah punya klausul terpisah
    • Katanya versi berlisensi CC dan API akan segera hadir
      Laju perkembangan model sangat cepat, jadi ini sepertinya akan menjadi tahun yang cukup besar untuk musik
    • Untungnya, pelatihan juga bisa dilakukan di rumah. Pertanyaan yang lebih besar adalah data
  • Saya rasa masih diperlukan tahap di mana AI terlebih dahulu mempelajari seperti apa bunyi sound library berkualitas tinggi, lalu menerapkan kemampuan yang sudah dipelajari itu untuk memicu bunyi dari library tersebut lewat MIDI
    Dengan begitu, kita bisa mendapatkan kreativitas AI musik sekaligus kualitas audio yang sempurna

    • Saya juga selalu menginginkan hal seperti itu pada AI pembuat gambar. Daripada gambar jadi yang seolah-olah diperbaiki berulang secara ajaib, rasanya jauh lebih keren dan menarik melihat AI mencoba melukis dengan sapuan kuas atau mewarnai
      Saya tidak tahu dataset atau struktur seperti apa yang bisa diterapkan untuk itu, tapi pasti akan sangat menarik
    • Dengan MIDI, misalnya, bagaimana cara mendapatkan gitar yang dimainkan secara kasar, atau gema halus yang muncul dari rekaman di kamar mandi?
    • Bukankah itu yang dilakukan suno.ai?
  • Saya tidak bermaksud meremehkan kemajuan di sini, dan memang mengesankan
    Dari sudut pandang drummer, “solo drum” termasuk yang paling membosankan, dan ada bunyi-bunyi aneh yang tercampur. Pada akhirnya mungkin tergantung audiens yang dituju
    Sebagai catatan, untuk saat ini efek suaranya juga tidak terdengar realistis di telinga saya
    Meski begitu, kemajuannya besar, dan ini pekerjaan yang bagus

    • Dari sudut pandang drummer, jika dianggap terjadi di atas beat 4/4 yang stabil, “solo drum” itu ternyata cukup menarik untuk didengarkan
      Karena sifatnya yang tampak acak tapi tidak sepenuhnya acak, muncul pola ritme yang cukup tidak beraturan. Akan menyenangkan kalau bisa memasukkan sinkopasi seperti ini secara spontan
      Jangan minta saya menuliskannya ke notasi
      Konsistensi temponya sangat bagus. Namun noise yang tidak perlu dan dengung simbal acak menunjukkan keterbatasan model
    • Ini memang percobaan yang mengesankan, tetapi masih sangat jauh untuk benar-benar menghasilkan musik atau suara yang layak dipakai
      Sudah ada jutaan track musik library dan efek suara yang terdengar jauh lebih baik. Untuk bersaing dengan itu, AI generatif akan membutuhkan investasi besar, dan berbeda dengan teks atau gambar, saya tidak melihat ekonominya masuk akal
    • Saya lebih kecewa karena sampel musiknya tidak memiliki transisi. Sebagian besar lagu memiliki modulasi atau transisi perkusi
    • Solo drum itu menunjukkan dengan baik betapa model ini melewatkan inti dari solo drum. Saya bukan drummer, tetapi sama sekali tidak enak didengar
      Terdengar seperti seseorang yang asal memukul drum kira-kira mengikuti tempo
      Namun hal-hal seperti musik lift lumayan berhasil, dan itu juga sesuai dugaan
  • Menarik bahwa mereka membuka kode dan panduan ramah untuk pelatihan, tetapi tidak membuka modelnya
    Rasanya seperti hampir memohon orang-orang anonim untuk menghubungkan data loader ke akun Apple Music mereka dan menjalankannya sesuka hati. Tentu saja, bukan berarti ada yang menyarankan begitu

    • Kalau menebak, mungkin syarat dari AudioSparx untuk menyediakan stock audio library berlisensi untuk pelatihan mencakup klausul yang melarang redistribusi model hasilnya
  • Saya sempat berharap pada ide pembuatan efek suara, tetapi “suara langkah kaki” itu luar biasa buruk

    • Saya mencoba membuat musik di stableaudio.com, dan ya, hasilnya buruk. Namun laju pengembangan model seperti ini sangat cepat, jadi saya tidak akan terkejut kalau dalam 1–2 tahun menjadi sangat bagus
  • Benar tidak ada bobot publik? Sulit menemukan pernyataan yang jelas ke arah mana
    Sunting: Oh, saya tidak tahu ini komentar yang bisa memicu kontroversi. Akan lebih baik kalau ada yang menjawab pertanyaannya sebelum memberi downvote, tapi ya tidak apa-apa

  • “Untuk prompt efek suara, kami biasanya menambahkan ‘high-quality, stereo’ karena biasanya membantu.”
    Lucu bahwa mereka menemukan output LLM membaik kalau kita mengatakannya dengan sopan agar membuat hasil yang lebih baik

    • Kadang-kadang kita mungkin justru menginginkan suara kaset lama, atau suara piringan 78rpm yang lebih tua dan tergores
      Seperti biasa dengan komputer, ia melakukan apa yang kita minta, bukan apa yang kita maksud