Teknik sintesis image-to-video yang konsisten dan dapat dikendalikan untuk animasi karakter
- Animasi karakter bertujuan menghasilkan video karakter dari gambar diam berdasarkan sinyal gerak.
- Model difusi telah menjadi arus utama dalam riset generasi visual berkat kemampuan generatifnya yang kuat, tetapi di bidang image-to-video, khususnya animasi karakter, menjaga detail tetap konsisten secara temporal merupakan tantangan besar.
- Makalah ini mengusulkan kerangka kerja baru untuk animasi karakter dengan memanfaatkan keunggulan model difusi, serta merancang ReferenceNet untuk mempertahankan karakteristik penampilan yang kompleks dari gambar referensi dengan mengintegrasikan detail melalui spatial attention.
Metodologi
- Gambaran umum metode yang diusulkan adalah menggunakan Pose Guider untuk melakukan encoding awal pada urutan pose, lalu menggabungkannya dengan noise multi-frame, setelah itu Denoising UNet menjalankan proses denoising untuk menghasilkan video.
- Blok komputasi pada Denoising UNet terdiri dari spatial attention, cross attention, dan temporal attention, sementara integrasi gambar referensi mencakup dua aspek.
- Pertama, fitur detail yang diekstraksi melalui ReferenceNet digunakan dalam spatial attention, dan kedua, fitur semantik yang diekstraksi melalui encoder gambar CLIP digunakan dalam cross attention.
- Temporal attention bekerja pada dimensi waktu, dan pada akhirnya decoder VAE mendekode hasilnya menjadi klip video.
Beragam animasi karakter
- Dapat menganimasikan berbagai karakter, termasuk manusia, anime/komik, dan karakter humanoid.
- Sintesis video fashion bertujuan mengubah foto fashion menjadi video animasi yang realistis, dan eksperimen dilakukan pada dataset video fashion UBC dengan menggunakan data pelatihan yang sama.
- Generasi tarian manusia berfokus pada menganimasikan gambar dalam skenario tari nyata, dan eksperimen dilakukan pada dataset TikTok dengan menggunakan data pelatihan yang sama.
Opini GN⁺
- Riset ini menunjukkan kemajuan penting di bidang animasi karakter, dengan menghadirkan metode baru untuk menghasilkan video dari gambar menggunakan model difusi.
- Teknologi yang mampu mengendalikan gerakan karakter secara presisi sambil mempertahankan karakteristik detail dari gambar referensi dapat memberi dampak besar pada industri animasi dan efek visual.
- Artikel ini memberikan informasi menarik tentang pendekatan inovatif untuk animasi karakter dan bagaimana pendekatan tersebut dapat diterapkan pada berbagai karakter dan skenario.
3 komentar
Kalau memikirkan animasi yang kualitas gambarnya ambruk karena jadwal molor, mungkin hasil seperti ini justru bisa lebih bagus. Meski begitu, pada tahap pascaproses tampaknya tetap perlu campur tangan manusia sampai tingkat tertentu.
Hasilnya luar biasa. Bidang video juga berkembang sangat cepat.
Komentar Hacker News
Kekaguman karena ini terasa seperti pertama kalinya melihat AI menghasilkan gerakan manusia yang meyakinkan
Takjub bahwa dalam beberapa tahun teknologi ini mungkin bisa digeneralisasi, tidak hanya untuk karakter perempuan muda yang secara tradisional dianggap menarik
Mempertanyakan praktik memposting hasil riset di Github tetapi tidak merilis kodenya
Menantikan alat atau rangkaian alat untuk mengubah manga favorit menjadi animasi
Membayangkan bahwa dalam beberapa tahun akan ada situs seperti YouTube tempat semua video dihasilkan secara real-time
Kritik bahwa pemilihan gambar uji tidak tepat
Curiga bahwa sampelnya telah dipilih-pilih dan sistemnya overfit pada dataset sehingga tidak akan bisa digeneralisasi ke hal lain
Membayangkan teknologi ini saat digabungkan dengan pemodelan 3D dan VR
Mempertanyakan mengapa segala sesuatu di bidang ini cenderung bernuansa seksual