Emu Video: menghasilkan video berkualitas tinggi dari teks berbasis model difusi tunggal
- Memisahkan proses menjadi dua tahap
- Pertama membuat gambar yang dikondisikan sesuai prompt teks
- Lalu membuat video yang dikondisikan pada teks dan gambar yang telah dibuat
- Melalui pendekatan "factorized" atau terpisah ini, model pembangkitan video dapat dilatih secara efisien
- Berbeda dari pekerjaan sebelumnya yang memerlukan penumpukan beberapa model (misalnya Make-A-Video membutuhkan 5 model), implementasinya lebih sederhana dan hanya dengan dua model difusi dapat menghasilkan video 512x512 berdurasi 4 detik pada 16 frame per detik
- Dalam praktiknya, 96% responden lebih menyukai kualitasnya, dan 85% lebih menyukai kesetiaannya terhadap prompt teks dibanding Make-A-Video
- Selain itu, model ini juga jauh melampaui pekerjaan sebelumnya dengan menerapkan "animasi" pada gambar yang diberikan pengguna berdasarkan prompt teks
Emu Edit: pengeditan gambar presisi melalui tugas pengenalan dan generasi
- Untuk membuat gambar yang diinginkan, prompt harus terus disesuaikan, dan dari situlah prompt engineering muncul
- Namun, masih ada keterbatasan dalam hal kontrol presisi
- Emu Edit menyederhanakan berbagai tugas manipulasi gambar dan memberikan kemampuan serta presisi yang lebih baik untuk pengeditan gambar
- Memungkinkan pengeditan bentuk bebas melalui perintah yang mencakup tugas seperti pengeditan lokal dan global, penghapusan dan penambahan latar belakang, transformasi warna dan geometri, serta deteksi dan segmentasi
- Pendekatan saat ini sering kali melakukan perubahan berlebihan atau menunjukkan performa yang kurang baik pada beragam tugas pengeditan
- Tidak seperti banyak model AI generatif saat ini, Emu Edit mengikuti instruksi secara akurat sehingga piksel pada gambar masukan yang tidak terkait dengan instruksi tetap dipertahankan
- Misalnya, saat menambahkan teks "Aloha!" pada topi baseball, topinya sendiri tidak seharusnya berubah
- Untuk melatih model, dikembangkan sebuah dataset yang berisi 10 juta sampel sintetis, masing-masing mencakup gambar masukan, penjelasan tugas yang akan dilakukan, dan gambar keluaran target
- Dataset terbesar hingga saat ini
- Hasilnya, model Emu Edit menunjukkan hasil pengeditan yang belum pernah ada sebelumnya dalam hal kesetiaan terhadap instruksi dan kualitas gambar
- Baik evaluasi kualitatif maupun kuantitatif untuk berbagai tugas pengeditan gambar menghasilkan capaian state-of-the-art baru dan membuktikan performa yang lebih unggul dibanding pendekatan sebelumnya
1 komentar
Saya cukup tertarik dengan Emu Edit. Kalau di DALL·E diberi perintah untuk mengubah sesuatu, meskipun seed dikunci, hasilnya malah dibuat ulang sepenuhnya sehingga sulit melakukan perubahan kecil. Kalau bisa diedit dengan cara seperti itu, sepertinya akan jadi lebih nyaman digunakan.