Demo Audio Stabil
(stability-ai.github.io)Panduan
- Situs web ini mungkin tidak berfungsi dengan baik di Safari, dan untuk pengalaman terbaik disarankan menggunakan Google Chrome.
Pembuatan audio stabil
- Model ini dapat menghasilkan musik stereo 44.1kHz dengan berbagai durasi, dengan contoh seperti techno Berlin, rave, drum machine, synthesizer, dan musik bernuansa gelap.
- Berbeda dari model state-of-the-art sebelumnya, model ini juga dapat menghasilkan efek suara stereo 44.1kHz, dengan contoh seperti suara pintu menutup, suara mobil sport atau sepeda motor yang melintas, kembang api, dan langkah kaki di dalam gua.
- Semua contoh di situs web ini dibuat dengan model yang sama, yang dapat menghasilkan musik dan efek suara dalam stereo 44.1kHz.
Pembuatan musik stereo jangka panjang: perbandingan dengan state-of-the-art
- Kualitas audio dapat dievaluasi melalui perbandingan antara model yang menghasilkan musik dengan perpaduan permainan mandolin, siulan, gitar, dan flute, dengan model-model lain.
- Pembuatan musik komersial yang memadukan melodi piano, snare roll, pola kick, hi-hat, tepuk tangan, dan melodi lead synthesizer juga menjadi objek perbandingan.
Efek suara: perbandingan dengan state-of-the-art
- Kualitas audio dapat dievaluasi melalui perbandingan antara model yang menghasilkan suara klik mesin, suara putaran berkecepatan tinggi, dan suara burung berkicau keras, dengan model-model lain.
- Prompt yang dipilih tidak menuntut pergerakan stereo yang besar, sehingga hasil rendering menunjukkan karakter yang relatif nonspasial.
Autoencoder: rekonstruksi
- Untuk mengevaluasi kemampuan fidelitas audio, rekaman asli dibandingkan dengan rekaman yang telah melewati autoencoder.
- Rekonstruksi autoencoder sangat mirip dengan audio asli, hampir pada tingkat transparan.
Pendapat GN⁺
- Teknologi ini menunjukkan kemajuan penting di bidang pembuatan musik dan efek suara, terutama dengan kemampuan menghasilkan suara stereo berkualitas tinggi yang menonjol.
- Melalui perbandingan dengan model state-of-the-art, kualitas audio unggul dari model ini dapat dievaluasi secara objektif, sehingga diharapkan menjadi alat yang berguna bagi para kreator konten audio.
- Perbandingan rekonstruksi melalui autoencoder menunjukkan bahwa teknologi ini dapat memulihkan audio asli dengan sangat akurat, yang mengisyaratkan potensi pemanfaatannya pada bidang aplikasi yang sensitif terhadap kualitas suara.
1 komentar
Komentar Hacker News
Ed Newton-Rex keluar tidak lama setelah peluncuran Stable Audio karena kekhawatiran tentang hak cipta dan data pelatihan.
Situasinya mengulang era 90-an dan Internet Explorer, tetapi kali ini terasa positif karena browser yang dominan bersifat open source.
Sama seperti Stable Diffusion, prompt teks kemungkinan akan menjadi cara yang paling sulit dikendalikan untuk mendapatkan output yang berguna.
Stable Audio jauh lebih unggul dibanding model musik SOTA saat ini (MusicGen, MusicLM).
Masih diperlukan tahap di mana AI mempelajari pustaka suara berkualitas tinggi lalu memicu suara dari pustaka tersebut melalui MIDI.
Sebagai seorang drummer, 'drum solo' terdengar membosankan dan bercampur dengan suara aneh, serta belum menghasilkan efek suara yang terasa nyata.
Kode dan instruksi pelatihan sudah dibuka, tetapi modelnya tidak dirilis.
Menarik bahwa menambahkan prompt 'high-quality, stereo' umumnya membantu.
Gagasan tentang pembuatan efek suara sempat terasa menarik, tetapi 'suara langkah kaki' sangat buruk.
Dengan prompt 'musik penuh energi, biola, vokal, orkestra, piano, minimalisme, John Adams, Nixon in China', kita bisa menghasilkan musik yang sangat unik dan menarik.