- Belakangan ini, model pembuatan video bermunculan dan menampilkan kualitas gambar yang luar biasa, tetapi keterbatasan saat ini adalah kurangnya kemampuan untuk menghasilkan gerakan besar yang konsisten
- VideoPoet adalah LLM yang dapat melakukan berbagai tugas pembuatan video seperti teks-ke-video, gambar-ke-video, styling video, inpainting dan outpainting video, serta pembuatan video-audio
- Tidak seperti model lain, VideoPoet tidak bergantung pada komponen terpisah yang unggul di tiap tugas, melainkan mengintegrasikan setiap fungsi di dalam satu LLM tunggal
- Mengubah gambar menjadi gerakan, serta mengedit video untuk melakukan inpainting atau outpainting
- VideoPoet melatih model bahasa autoregresif dengan menggunakan beberapa tokenizer untuk mempelajari modalitas video, gambar, audio, dan teks
- Untuk teks-to-video, keluaran video memiliki panjang variabel dan dapat menerapkan beragam gerakan serta gaya sesuai isi teks
- Untuk gambar-to-video, gambar masukan dianimasikan menjadi gerakan bersama prompt
- Dalam styling video, informasi Optical Flow dan Depth diprediksi terlebih dahulu lalu dimasukkan ke VideoPoet bersama teks masukan tambahan
- VideoPoet juga dapat menghasilkan audio, sehingga video dan audio dapat dibuat dalam satu model tunggal
- Dari hasil evaluasi generasi, rata-rata orang menilai bahwa VideoPoet lebih baik dalam mengikuti prompt dan menghasilkan gerakan yang lebih menarik
- VideoPoet membuktikan daya saing LLM dalam menghasilkan gerakan yang menarik dan berkualitas tinggi di dalam video
Belum ada komentar.