Meta merilis model AI Emu Video/Edit untuk sintesis dan pengeditan video

(ai.meta.com)

15 poin oleh xguru 2023-11-21 | 1 komentar | Bagikan ke WhatsApp

Emu Video: menghasilkan video berkualitas tinggi dari teks berbasis model difusi tunggal

Memisahkan proses menjadi dua tahap
- Pertama membuat gambar yang dikondisikan sesuai prompt teks
- Lalu membuat video yang dikondisikan pada teks dan gambar yang telah dibuat
Melalui pendekatan "factorized" atau terpisah ini, model pembangkitan video dapat dilatih secara efisien
Berbeda dari pekerjaan sebelumnya yang memerlukan penumpukan beberapa model (misalnya Make-A-Video membutuhkan 5 model), implementasinya lebih sederhana dan hanya dengan dua model difusi dapat menghasilkan video 512x512 berdurasi 4 detik pada 16 frame per detik
Dalam praktiknya, 96% responden lebih menyukai kualitasnya, dan 85% lebih menyukai kesetiaannya terhadap prompt teks dibanding Make-A-Video
Selain itu, model ini juga jauh melampaui pekerjaan sebelumnya dengan menerapkan "animasi" pada gambar yang diberikan pengguna berdasarkan prompt teks

Emu Edit: pengeditan gambar presisi melalui tugas pengenalan dan generasi

Untuk membuat gambar yang diinginkan, prompt harus terus disesuaikan, dan dari situlah prompt engineering muncul
Namun, masih ada keterbatasan dalam hal kontrol presisi
Emu Edit menyederhanakan berbagai tugas manipulasi gambar dan memberikan kemampuan serta presisi yang lebih baik untuk pengeditan gambar
Memungkinkan pengeditan bentuk bebas melalui perintah yang mencakup tugas seperti pengeditan lokal dan global, penghapusan dan penambahan latar belakang, transformasi warna dan geometri, serta deteksi dan segmentasi
Pendekatan saat ini sering kali melakukan perubahan berlebihan atau menunjukkan performa yang kurang baik pada beragam tugas pengeditan
Tidak seperti banyak model AI generatif saat ini, Emu Edit mengikuti instruksi secara akurat sehingga piksel pada gambar masukan yang tidak terkait dengan instruksi tetap dipertahankan
- Misalnya, saat menambahkan teks "Aloha!" pada topi baseball, topinya sendiri tidak seharusnya berubah
Untuk melatih model, dikembangkan sebuah dataset yang berisi 10 juta sampel sintetis, masing-masing mencakup gambar masukan, penjelasan tugas yang akan dilakukan, dan gambar keluaran target
- Dataset terbesar hingga saat ini
Hasilnya, model Emu Edit menunjukkan hasil pengeditan yang belum pernah ada sebelumnya dalam hal kesetiaan terhadap instruksi dan kualitas gambar
- Baik evaluasi kualitatif maupun kuantitatif untuk berbagai tugas pengeditan gambar menghasilkan capaian state-of-the-art baru dan membuktikan performa yang lebih unggul dibanding pendekatan sebelumnya

1 komentar

xguru 2023-11-21

Saya cukup tertarik dengan Emu Edit. Kalau di DALL·E diberi perintah untuk mengubah sesuatu, meskipun seed dikunci, hasilnya malah dibuat ulang sepenuhnya sehingga sulit melakukan perubahan kecil. Kalau bisa diedit dengan cara seperti itu, sepertinya akan jadi lebih nyaman digunakan.

Meta merilis model AI Emu Video/Edit untuk sintesis dan pengeditan video

Emu Video: menghasilkan video berkualitas tinggi dari teks berbasis model difusi tunggal

Emu Edit: pengeditan gambar presisi melalui tugas pengenalan dan generasi

Bacaan terkait

1 komentar