Google merilis AI text-to-video "Imagen Video"
(imagen.research.google)- "Text-conditional Video Generation System" yang membuat video dari masukan teks menggunakan Video Diffusion Model
- Ciri khasnya adalah membuat video beresolusi rendah (24x48 piksel, 16 frame, 3fps) dari teks, lalu melakukan upscaling dengan menumpuk 7 model difusi secara berjenjang (cascade)
- Output akhir adalah 1280x768 24fps. Dapat menghasilkan video berdurasi 5,3 detik
- Makalah: Imagen Video : High Definition Video Generation with Diffusion Models
1 komentar
Imagen - model difusi text-to-image dari Google
Imagen-pytorch - implementasi Google Imagen dengan Pytorch
Make-A-Video : AI yang membuat video dari teks