Animate Anyone: Teknik sintesis image-to-video untuk animasi karakter

(humanaigc.github.io)

15 poin oleh GN⁺ 2023-12-02 | 3 komentar | Bagikan ke WhatsApp

Teknik sintesis image-to-video yang konsisten dan dapat dikendalikan untuk animasi karakter

Animasi karakter bertujuan menghasilkan video karakter dari gambar diam berdasarkan sinyal gerak.
Model difusi telah menjadi arus utama dalam riset generasi visual berkat kemampuan generatifnya yang kuat, tetapi di bidang image-to-video, khususnya animasi karakter, menjaga detail tetap konsisten secara temporal merupakan tantangan besar.
Makalah ini mengusulkan kerangka kerja baru untuk animasi karakter dengan memanfaatkan keunggulan model difusi, serta merancang ReferenceNet untuk mempertahankan karakteristik penampilan yang kompleks dari gambar referensi dengan mengintegrasikan detail melalui spatial attention.

Metodologi

Gambaran umum metode yang diusulkan adalah menggunakan Pose Guider untuk melakukan encoding awal pada urutan pose, lalu menggabungkannya dengan noise multi-frame, setelah itu Denoising UNet menjalankan proses denoising untuk menghasilkan video.
Blok komputasi pada Denoising UNet terdiri dari spatial attention, cross attention, dan temporal attention, sementara integrasi gambar referensi mencakup dua aspek.
Pertama, fitur detail yang diekstraksi melalui ReferenceNet digunakan dalam spatial attention, dan kedua, fitur semantik yang diekstraksi melalui encoder gambar CLIP digunakan dalam cross attention.
Temporal attention bekerja pada dimensi waktu, dan pada akhirnya decoder VAE mendekode hasilnya menjadi klip video.

Beragam animasi karakter

Dapat menganimasikan berbagai karakter, termasuk manusia, anime/komik, dan karakter humanoid.
Sintesis video fashion bertujuan mengubah foto fashion menjadi video animasi yang realistis, dan eksperimen dilakukan pada dataset video fashion UBC dengan menggunakan data pelatihan yang sama.
Generasi tarian manusia berfokus pada menganimasikan gambar dalam skenario tari nyata, dan eksperimen dilakukan pada dataset TikTok dengan menggunakan data pelatihan yang sama.

Opini GN⁺

Riset ini menunjukkan kemajuan penting di bidang animasi karakter, dengan menghadirkan metode baru untuk menghasilkan video dari gambar menggunakan model difusi.
Teknologi yang mampu mengendalikan gerakan karakter secara presisi sambil mempertahankan karakteristik detail dari gambar referensi dapat memberi dampak besar pada industri animasi dan efek visual.
Artikel ini memberikan informasi menarik tentang pendekatan inovatif untuk animasi karakter dan bagaimana pendekatan tersebut dapat diterapkan pada berbagai karakter dan skenario.

3 komentar

laeyoung 2023-12-04

Kalau memikirkan animasi yang kualitas gambarnya ambruk karena jadwal molor, mungkin hasil seperti ini justru bisa lebih bagus. Meski begitu, pada tahap pascaproses tampaknya tetap perlu campur tangan manusia sampai tingkat tertentu.

xguru 2023-12-02

Hasilnya luar biasa. Bidang video juga berkembang sangat cepat.

GN⁺ 2023-12-02

Komentar Hacker News

Kekaguman karena ini terasa seperti pertama kalinya melihat AI menghasilkan gerakan manusia yang meyakinkan
- Kerangka gerakan yang sebenarnya kemungkinan besar berasal dari motion capture
- Penasaran dengan tingkat kemajuan teknologi saat ini untuk menghasilkan kerangka gerakan yang penting bagi video game
- Menyebut Rock, Paper, Scissors dari Corridor Crew sebagai pencapaian terbaik sebelumnya dalam animasi karakter AI
- Diperkirakan hambatan masuk untuk produksi animasi akan menjadi sangat rendah
- Unsur menyeramkan terkait pacar AI semakin meningkat
Takjub bahwa dalam beberapa tahun teknologi ini mungkin bisa digeneralisasi, tidak hanya untuk karakter perempuan muda yang secara tradisional dianggap menarik
Mempertanyakan praktik memposting hasil riset di Github tetapi tidak merilis kodenya
- Menganggap tren semacam ini aneh
Menantikan alat atau rangkaian alat untuk mengubah manga favorit menjadi animasi
- Berharap bisa "memberi makan" season 1 atau OVA dan menonton season 2 tanpa menunggu rilis resmi
Membayangkan bahwa dalam beberapa tahun akan ada situs seperti YouTube tempat semua video dihasilkan secara real-time
- Mulai dari perbaikan perangkat elektronik hingga belajar sains, semuanya diharapkan disesuaikan dengan tingkat pembelajaran dan minat pengguna
Kritik bahwa pemilihan gambar uji tidak tepat
- Berpendapat bahwa dataset yang beragam dan terstandarisasi seharusnya digunakan
- Mengutip kritik terhadap penggunaan gambar seksual dalam kuliah pemrosesan citra
Curiga bahwa sampelnya telah dipilih-pilih dan sistemnya overfit pada dataset sehingga tidak akan bisa digeneralisasi ke hal lain
- Tidak adanya contoh kegagalan adalah tanda yang patut diwaspadai
- Bahkan dalam bentuknya saat ini teknologi ini bisa berguna, dan untuk membuat sistem yang lebih umum hal yang terutama dibutuhkan adalah pengumpulan data pelatihan yang tepat
Membayangkan teknologi ini saat digabungkan dengan pemodelan 3D dan VR
- Porno VR, video game dengan karakter AI dinamis, serta aktor yang telah meninggal dan tokoh sejarah yang dihidupkan kembali untuk film dan pendidikan
- Rasa takut terhadap panti jompo di masa depan berkurang
Mempertanyakan mengapa segala sesuatu di bidang ini cenderung bernuansa seksual
- Ini bisa menjadi masalah, tetapi ada juga sikap yang menyambut ketika orang-orang jujur mengungkapkan niat mereka