9 poin oleh xguru 2022-10-07 | 1 komentar | Bagikan ke WhatsApp
  • "Text-conditional Video Generation System" yang membuat video dari masukan teks menggunakan Video Diffusion Model
  • Ciri khasnya adalah membuat video beresolusi rendah (24x48 piksel, 16 frame, 3fps) dari teks, lalu melakukan upscaling dengan menumpuk 7 model difusi secara berjenjang (cascade)
  • Output akhir adalah 1280x768 24fps. Dapat menghasilkan video berdurasi 5,3 detik
  • Makalah: Imagen Video : High Definition Video Generation with Diffusion Models