- Stable Video Diffusion adalah model video generatif pertama yang berbasis pada model gambar Stable Diffusion
- Disediakan sebagai pratinjau untuk riset, model video AI generatif terbaru ini merupakan langkah penting dalam perjalanan membangun berbagai jenis model
- Kode tersedia di repositori GitHub, dan bobot yang diperlukan untuk menjalankan model secara lokal dapat dilihat di halaman Hugging Face
Dapat diterapkan ke berbagai aplikasi video
- Model video dapat dengan mudah diterapkan ke berbagai tugas downstream, termasuk sintesis multi-sudut pandang dari satu gambar
- Mirip dengan ekosistem yang dibangun di sekitar Stable Diffusion, ada rencana untuk berbagai model yang dibangun dan diperluas di atas fondasi ini
- Mulai hari ini, pendaftaran Waitlist untuk pengalaman web baru yang menampilkan antarmuka teks-ke-video sudah dibuka
Kompetitif dalam performa
- Stable Video Diffusion dirilis dengan dua model image-to-video yang dapat menghasilkan 14 dan 25 frame, dengan frame rate yang dapat disesuaikan pengguna antara 3 hingga 30 frame per detik
- Saat dirilis dalam bentuk dasar, evaluasi eksternal menunjukkan bahwa model-model ini melampaui model tertutup terdepan dalam studi preferensi pengguna
Khusus untuk riset
- Mereka antusias untuk memperbarui model dengan perkembangan terbaru dan menggabungkan umpan balik, tetapi menegaskan bahwa pada tahap saat ini model ini belum ditujukan untuk aplikasi dunia nyata maupun komersial
- Wawasan dan umpan balik terkait keamanan serta kualitas sangat penting untuk menyempurnakan model menuju rilis final
Perluasan berkelanjutan model AI
- Stable Video Diffusion merupakan tambahan yang membanggakan bagi berbagai model open source yang mencakup beragam modalitas, termasuk gambar, bahasa, audio, 3D, dan kode
- Portofolio ini menjadi bukti komitmen Stability AI terhadap penguatan kecerdasan manusia.
Opini GN⁺
- Hal terpenting dalam artikel ini adalah peluncuran model Stable Video Diffusion, yang menunjukkan kemajuan teknologi AI dan membuka kemungkinan penerapan di berbagai bidang.
- Teknologi ini memberi para peneliti dan pengembang alat baru serta memungkinkan pembuatan video kreatif, sehingga memunculkan harapan akan aplikasi menarik di berbagai bidang seperti periklanan, pendidikan, dan hiburan.
2 komentar
Momen Stable Diffusion sedang datang ke LLM
Apakah Momen Stable Diffusion ini sekarang juga akan hadir di video? Memang belakangan ini, di antara startup AI luar negeri, tampaknya bidang video adalah yang paling banyak menarik pendanaan.
Komentar Hacker News
Di bagian bawah halaman video, muncul dua ekor burung (burung biru), dan di latarnya ada dua bangunan identik yang terlihat seperti CN Tower. CN Tower adalah landmark utama Toronto, dan tim bisbol Toronto bernama Blue Jays. Menara itu berada dekat stadion olahraga utama di pusat kota. Saya kurang lebih paham cara kerja text-to-image, dan masuk akal menurut saya bahwa "burung biru" akan berada di ruang vektor yang dekat dengan "Toronto" atau "CN Tower". Peningkatan skala dan kecepatan dari image-to-video memang mengesankan, tetapi melihat betapa mampunya model pembuat gambar, rasanya tetap terbatas karena tidak adanya kemampuan penyuntingan atau iterasi. Misalnya, saya penasaran apakah ada solusi yang memungkinkan model melakukan pekerjaan iteratif dengan prompt seperti "pindahkan sepeda di foto ke kiri". Rasanya bidang ini berkembang sangat cepat.
Kecepatan kemajuan di bidang machine learning selama setahun terakhir benar-benar luar biasa. Jika ControlNet diterapkan dengan baik pada video, saya antusias melihat bagaimana orang akan memanfaatkan teknologi ini. Membuat video dari nol memang keren, tetapi kegunaan sejatinya ada pada konsistensi temporal. Untuk mendapatkan video yang stabil, biasanya masih dibutuhkan banyak pascapemrosesan manual.
Saya masih bertanya-tanya bagaimana lisensi model "non-komersial" bisa ditegakkan. Lisensi perangkat lunak mengatur redistribusi perangkat lunaknya, tetapi tidak mengatur produk yang dihasilkan olehnya. Misalnya, gambar yang dibuat dengan GIMP tidak otomatis berada di bawah lisensi GPL.
Bidang ini bergerak sangat cepat. Paper baru muncul dalam sekejap. Kecepatan belajar manusia sungguh menakjubkan. Sangat menarik menggunakannya untuk downstream tasks. Saya penasaran seberapa mudah mengintegrasikan model ini dengan animatediff. Saya juga ingin tahu apakah benchmark bisa dijalankan di perangkat m3, dan apakah layak menggunakan m3 pro untuk menjalankan inferensi dan pengembangan diffusion seperti ini.
Lompatan yang memikat dalam kemajuan teknis. Ini membuat saya memikirkan perbedaan antara ancestral samplers dan non-ancestral samplers. Misalnya, metode Euler agak deterministik dan output-nya tidak berubah meski langkah sampling ditambah, sedangkan Euler Ancestral menambahkan noise di setiap langkah sehingga menghasilkan lebih banyak variasi, tetapi juga lebih acak/stokastik. Untuk menghasilkan video, menurut saya sampler perlu sangat bergantung pada frame sebelumnya sambil menyisipkan semacam sub-prompt. Misalnya, "putar objek tertentu 5 derajat ke kiri", dan sebagainya. Saya suka istilah "konsistensi temporal" yang dipakai komentator lain.
Masuk akal bahwa hasilnya bisa ditingkatkan dengan menghapus semua cut dan fade dari data pelatihan. Di bagian latar belakang paper risetnya disebutkan "temporal convolution layers"; adakah yang bisa menjelaskan apa itu? Saya penasaran jenis data pelatihan apa yang dimasukkan untuk merepresentasikan keadaan temporal di antara gambar-gambar yang membentuk video, atau apakah maksudnya sesuatu yang lain.
Perkembangan yang sangat keren. Beberapa bulan lalu saya mencoba beberapa model pembuat "video" di Replicate, dan hasilnya sangat keren, tetapi pada akhirnya video yang keluar jelas dibuat dengan memakai frame sebelumnya sebagai prompt. Teknologi ini tampaknya benar-benar bisa menghasilkan sesuatu dengan konteks tingkat lebih tinggi. Melihat tingkat kemajuan seperti ini hanya dalam waktu sedikit lebih dari setengah tahun sungguh mengejutkan.
Saya minta Stability.ai memastikan dewan direksinya masuk akal.
Saya sangat antusias untuk mencoba teknologi ini. Berikut beberapa eksperimen yang saya lakukan baru-baru ini.
Seperti pada gambar statis, sangat menarik mengamati cacat-cacat halus yang tidak disengaja. Misalnya, pria dengan topi koboi itu tampak seperti hampir tersedak, dan di video kereta, relnya terlihat terlalu lebar sementara keretanya bergerak seolah meluncur di atas es.