1 poin oleh GN⁺ 2024-02-14 | 1 komentar | Bagikan ke WhatsApp

Panduan

  • Situs web ini mungkin tidak berfungsi dengan baik di Safari, dan untuk pengalaman terbaik disarankan menggunakan Google Chrome.

Pembuatan audio stabil

  • Model ini dapat menghasilkan musik stereo 44.1kHz dengan berbagai durasi, dengan contoh seperti techno Berlin, rave, drum machine, synthesizer, dan musik bernuansa gelap.
  • Berbeda dari model state-of-the-art sebelumnya, model ini juga dapat menghasilkan efek suara stereo 44.1kHz, dengan contoh seperti suara pintu menutup, suara mobil sport atau sepeda motor yang melintas, kembang api, dan langkah kaki di dalam gua.
  • Semua contoh di situs web ini dibuat dengan model yang sama, yang dapat menghasilkan musik dan efek suara dalam stereo 44.1kHz.

Pembuatan musik stereo jangka panjang: perbandingan dengan state-of-the-art

  • Kualitas audio dapat dievaluasi melalui perbandingan antara model yang menghasilkan musik dengan perpaduan permainan mandolin, siulan, gitar, dan flute, dengan model-model lain.
  • Pembuatan musik komersial yang memadukan melodi piano, snare roll, pola kick, hi-hat, tepuk tangan, dan melodi lead synthesizer juga menjadi objek perbandingan.

Efek suara: perbandingan dengan state-of-the-art

  • Kualitas audio dapat dievaluasi melalui perbandingan antara model yang menghasilkan suara klik mesin, suara putaran berkecepatan tinggi, dan suara burung berkicau keras, dengan model-model lain.
  • Prompt yang dipilih tidak menuntut pergerakan stereo yang besar, sehingga hasil rendering menunjukkan karakter yang relatif nonspasial.

Autoencoder: rekonstruksi

  • Untuk mengevaluasi kemampuan fidelitas audio, rekaman asli dibandingkan dengan rekaman yang telah melewati autoencoder.
  • Rekonstruksi autoencoder sangat mirip dengan audio asli, hampir pada tingkat transparan.

Pendapat GN⁺

  • Teknologi ini menunjukkan kemajuan penting di bidang pembuatan musik dan efek suara, terutama dengan kemampuan menghasilkan suara stereo berkualitas tinggi yang menonjol.
  • Melalui perbandingan dengan model state-of-the-art, kualitas audio unggul dari model ini dapat dievaluasi secara objektif, sehingga diharapkan menjadi alat yang berguna bagi para kreator konten audio.
  • Perbandingan rekonstruksi melalui autoencoder menunjukkan bahwa teknologi ini dapat memulihkan audio asli dengan sangat akurat, yang mengisyaratkan potensi pemanfaatannya pada bidang aplikasi yang sensitif terhadap kualitas suara.

1 komentar

 
GN⁺ 2024-02-14
Komentar Hacker News
  • Ed Newton-Rex keluar tidak lama setelah peluncuran Stable Audio karena kekhawatiran tentang hak cipta dan data pelatihan.

    Di Safari, situs web mungkin tidak berfungsi dengan baik. Untuk pengalaman terbaik, disarankan menggunakan Google Chrome.

  • Situasinya mengulang era 90-an dan Internet Explorer, tetapi kali ini terasa positif karena browser yang dominan bersifat open source.

    • Meminta seseorang membuat tombol GIF animasi yang mengatakan bahwa cara terbaik untuk melihatnya adalah khusus di Chrome.
  • Sama seperti Stable Diffusion, prompt teks kemungkinan akan menjadi cara yang paling sulit dikendalikan untuk mendapatkan output yang berguna.

    • Diperkirakan kita bisa mendapatkan synthesizer jaringan saraf dengan menggunakan MIDI sebagai input.
  • Stable Audio jauh lebih unggul dibanding model musik SOTA saat ini (MusicGen, MusicLM).

    • Bisa digunakan dengan berlangganan di halaman produk Stable Audio, tetapi tidak tersedia API yang dapat diintegrasikan atau dimanfaatkan oleh pengembang.
  • Masih diperlukan tahap di mana AI mempelajari pustaka suara berkualitas tinggi lalu memicu suara dari pustaka tersebut melalui MIDI.

    • Dengan begitu, kualitas suara bisa sempurna sambil tetap mempertahankan kreativitas AI musik.
  • Sebagai seorang drummer, 'drum solo' terdengar membosankan dan bercampur dengan suara aneh, serta belum menghasilkan efek suara yang terasa nyata.

    • Namun, kemajuan yang dicapai sangat besar dan mengesankan.
  • Kode dan instruksi pelatihan sudah dibuka, tetapi modelnya tidak dirilis.

    • Ini pada dasarnya seperti mendorong pengguna anonim untuk bereksperimen dengan menghubungkan data loader ke akun Apple Music mereka.
  • Menarik bahwa menambahkan prompt 'high-quality, stereo' umumnya membantu.

    • Menarik bahwa pada LLM, hasil yang lebih baik bisa diperoleh hanya dengan memintanya secara langsung.
  • Gagasan tentang pembuatan efek suara sempat terasa menarik, tetapi 'suara langkah kaki' sangat buruk.

  • Dengan prompt 'musik penuh energi, biola, vokal, orkestra, piano, minimalisme, John Adams, Nixon in China', kita bisa menghasilkan musik yang sangat unik dan menarik.