VideoPoet - LLM Zero-Shot Google yang Dikhususkan untuk Pembuatan Video

xguru · 2023-12-22T10:15:01+09:00

Belakangan ini, model pembuatan video bermunculan dan menampilkan kualitas gambar yang luar biasa, tetapi keterbatasan saat ini adalah kurangnya kemampuan untuk menghasilkan gerakan besar yang konsisten VideoPoet adalah LLM yang dapat melakukan berbagai tugas pembuatan video seperti teks-ke-video, gambar-ke-video, styling video, inpainting dan outpainting video, serta pembuatan video-audio Tidak seperti model lain, VideoPoet tidak bergantung pada komponen terpisah yang unggul di tiap tugas, melainkan mengintegrasikan setiap fungsi di dalam satu LLM tunggal Mengubah gambar menjadi gerakan, serta mengedit video untuk melakukan inpainting atau outpainting VideoPoet melatih model bahasa autoregresif dengan menggunakan beberapa tokenizer untuk mempelajari modalitas video, gambar, audio, dan teks Untuk teks-to-video, keluaran video memiliki panjang variabel dan dapat menerapkan beragam gerakan serta gaya sesuai isi teks Untuk gambar-to-video, gambar masukan dianimasikan menjadi gerakan bersama prompt Dalam styling video, informasi Optical Flow dan Depth diprediksi terlebih dahulu lalu dimasukkan ke VideoPoet bersama teks masukan tambahan VideoPoet juga dapat menghasilkan audio, sehingga video dan audio dapat dibuat dalam satu model tunggal Dari hasil evaluasi generasi, rata-rata orang menilai bahwa VideoPoet lebih baik dalam mengikuti prompt dan menghasilkan gerakan yang lebih menarik VideoPoet membuktikan daya saing LLM dalam menghasilkan gerakan yang menarik dan berkualitas tinggi di dalam video

(blog.research.google)

5 poin oleh xguru 2023-12-22 | Belum ada komentar. | Bagikan ke WhatsApp

Belakangan ini, model pembuatan video bermunculan dan menampilkan kualitas gambar yang luar biasa, tetapi keterbatasan saat ini adalah kurangnya kemampuan untuk menghasilkan gerakan besar yang konsisten
VideoPoet adalah LLM yang dapat melakukan berbagai tugas pembuatan video seperti teks-ke-video, gambar-ke-video, styling video, inpainting dan outpainting video, serta pembuatan video-audio
- Tidak seperti model lain, VideoPoet tidak bergantung pada komponen terpisah yang unggul di tiap tugas, melainkan mengintegrasikan setiap fungsi di dalam satu LLM tunggal
- Mengubah gambar menjadi gerakan, serta mengedit video untuk melakukan inpainting atau outpainting
VideoPoet melatih model bahasa autoregresif dengan menggunakan beberapa tokenizer untuk mempelajari modalitas video, gambar, audio, dan teks
Untuk teks-to-video, keluaran video memiliki panjang variabel dan dapat menerapkan beragam gerakan serta gaya sesuai isi teks
Untuk gambar-to-video, gambar masukan dianimasikan menjadi gerakan bersama prompt
Dalam styling video, informasi Optical Flow dan Depth diprediksi terlebih dahulu lalu dimasukkan ke VideoPoet bersama teks masukan tambahan
VideoPoet juga dapat menghasilkan audio, sehingga video dan audio dapat dibuat dalam satu model tunggal
Dari hasil evaluasi generasi, rata-rata orang menilai bahwa VideoPoet lebih baik dalam mengikuti prompt dan menghasilkan gerakan yang lebih menarik
VideoPoet membuktikan daya saing LLM dalam menghasilkan gerakan yang menarik dan berkualitas tinggi di dalam video

VideoPoet - LLM Zero-Shot Google yang Dikhususkan untuk Pembuatan Video

Bacaan terkait

Belum ada komentar.