5 poin oleh xguru 2023-12-22 | Belum ada komentar. | Bagikan ke WhatsApp
  • Belakangan ini, model pembuatan video bermunculan dan menampilkan kualitas gambar yang luar biasa, tetapi keterbatasan saat ini adalah kurangnya kemampuan untuk menghasilkan gerakan besar yang konsisten
  • VideoPoet adalah LLM yang dapat melakukan berbagai tugas pembuatan video seperti teks-ke-video, gambar-ke-video, styling video, inpainting dan outpainting video, serta pembuatan video-audio
    • Tidak seperti model lain, VideoPoet tidak bergantung pada komponen terpisah yang unggul di tiap tugas, melainkan mengintegrasikan setiap fungsi di dalam satu LLM tunggal
    • Mengubah gambar menjadi gerakan, serta mengedit video untuk melakukan inpainting atau outpainting
  • VideoPoet melatih model bahasa autoregresif dengan menggunakan beberapa tokenizer untuk mempelajari modalitas video, gambar, audio, dan teks
  • Untuk teks-to-video, keluaran video memiliki panjang variabel dan dapat menerapkan beragam gerakan serta gaya sesuai isi teks
  • Untuk gambar-to-video, gambar masukan dianimasikan menjadi gerakan bersama prompt
  • Dalam styling video, informasi Optical Flow dan Depth diprediksi terlebih dahulu lalu dimasukkan ke VideoPoet bersama teks masukan tambahan
  • VideoPoet juga dapat menghasilkan audio, sehingga video dan audio dapat dibuat dalam satu model tunggal
  • Dari hasil evaluasi generasi, rata-rata orang menilai bahwa VideoPoet lebih baik dalam mengikuti prompt dan menghasilkan gerakan yang lebih menarik
  • VideoPoet membuktikan daya saing LLM dalam menghasilkan gerakan yang menarik dan berkualitas tinggi di dalam video

Belum ada komentar.

Belum ada komentar.