- Normalizing flow digunakan untuk langsung menghasilkan video dari input teks, gambar, dan video dalam generator video kausal pertama
- Pelatihan end-to-end, estimasi likelihood yang akurat, dan beragam tugas generasi (T2V/I2V/V2V) ditangani dalam satu model
- Arsitektur Global-Local, Flow-Score Matching, dan iterasi Jacobi yang sadar video meningkatkan konsistensi spatiotemporal dan efisiensi
- Model berukuran 7B parameter menghasilkan video 480p·16fps, dilatih dengan 70M data teks-video dan 400M data teks-gambar
- Normalizing flow mencapai kualitas setara model berbasis difusi dan membuktikan potensi generasi video autoregresif berkualitas tinggi
Ikhtisar STARFlow-V
- STARFlow-V adalah model generasi video kausal berbasis normalizing flow yang mencapai kualitas visual setara model difusi
- Menyediakan pelatihan end-to-end, estimasi likelihood yang akurat, dan dukungan untuk berbagai tugas generasi secara bersamaan
- Membuktikan kepraktisan normalizing flow di ranah generasi video yang sebelumnya didominasi model difusi
- Generasi teks-ke-video (T2V), gambar-ke-video (I2V), dan video-ke-video (V2V) semuanya dapat ditangani dengan satu arsitektur
Desain inti dan struktur pelatihan
- Model terdiri dari Deep Autoregressive Block (penalaran deret waktu global) dan Shallow Flow Block (penggambaran detail di dalam frame)
- Yang pertama menangkap ketergantungan jangka panjang dalam ruang laten spatiotemporal
- Yang kedua memodelkan struktur detail lokal pada tiap frame
- Denoiser ringan kausal yang dilatih melalui Flow-Score Matching meningkatkan konsistensi keluaran
- Tujuan pelatihan memakai struktur ganda: maximum likelihood estimation dan Flow-Score Matching
Kontribusi teknis utama
- Arsitektur Global-Local
- Blok Transformer kausal global menangani ketergantungan spatiotemporal jangka panjang
- Blok flow dangkal per frame bertugas pada penggambaran detail lokal
- Mengurangi masalah akumulasi error pada model autoregresif tingkat piksel
- Denoising berbasis Flow-Score Matching
- Secara bersamaan melatih denoiser saraf kausal yang memprediksi gradien distribusi probabilitas model (score)
- Memungkinkan pemurnian satu langkah tanpa denoiser eksternal yang non-kausal atau tidak lengkap
- Iterasi Jacobi yang sadar video
- Merekonstruksi proses generasi sebagai penyelesaian sistem nonlinier untuk melakukan pembaruan laten paralel
- Mempercepat proses melalui inisialisasi yang memanfaatkan informasi deret waktu dari frame berdekatan dan eksekusi pipeline
Spesifikasi model
- Data pelatihan: 70M pasangan teks-video, 400M pasangan teks-gambar
- Ukuran model: 7B parameter, resolusi keluaran 480p, frame rate 16fps
- Berkat reversibilitas normalizing flow, berbagai tugas generasi dapat dilakukan tanpa mengubah arsitektur atau melatih ulang
Hasil generasi dan perbandingan
- Teks-ke-video: menghasilkan beragam adegan seperti cahaya alami, gaya realistis, dan makro dengan kualitas tinggi
- Gambar-ke-video: memperluas video dari gambar masukan sambil menjaga konsistensi temporal
- Video-ke-video: melakukan beragam transformasi seperti penambahan objek, perubahan warna, perubahan gaya, dan inpainting
- Generasi video panjang: video berdurasi 10–30 detik juga dapat dihasilkan dengan pendekatan autoregresif per segmen
- Eksperimen perbandingan: menunjukkan hasil unggul dibanding NOVA dan WAN-Causal dalam fidelitas visual dan konsistensi temporal
Keterbatasan dan contoh kegagalan
- Pada interaksi fisik yang kompleks atau gerakan cepat, kualitas menurun
- Penyebab yang disebutkan meliputi keterbatasan sumber daya pelatihan, data berkualitas rendah, dan tidak adanya fine-tuning lanjutan (SFT·RL)
- Contoh: gerakan tampak tidak alami pada adegan anjing mengibaskan air atau kambing melompat
Makna penelitian
- STARFlow-V adalah bukti pertama bahwa normalizing flow cocok untuk generasi video autoregresif berkualitas tinggi
- Menawarkan arah pendekatan alternatif baru bagi riset generasi video yang berpusat pada model difusi
- Dinilai sebagai jalur riset yang menjanjikan untuk membangun world model
Belum ada komentar.