2 poin oleh GN⁺ 2025-12-03 | Belum ada komentar. | Bagikan ke WhatsApp
  • Normalizing flow digunakan untuk langsung menghasilkan video dari input teks, gambar, dan video dalam generator video kausal pertama
  • Pelatihan end-to-end, estimasi likelihood yang akurat, dan beragam tugas generasi (T2V/I2V/V2V) ditangani dalam satu model
  • Arsitektur Global-Local, Flow-Score Matching, dan iterasi Jacobi yang sadar video meningkatkan konsistensi spatiotemporal dan efisiensi
  • Model berukuran 7B parameter menghasilkan video 480p·16fps, dilatih dengan 70M data teks-video dan 400M data teks-gambar
  • Normalizing flow mencapai kualitas setara model berbasis difusi dan membuktikan potensi generasi video autoregresif berkualitas tinggi

Ikhtisar STARFlow-V

  • STARFlow-V adalah model generasi video kausal berbasis normalizing flow yang mencapai kualitas visual setara model difusi
    • Menyediakan pelatihan end-to-end, estimasi likelihood yang akurat, dan dukungan untuk berbagai tugas generasi secara bersamaan
  • Membuktikan kepraktisan normalizing flow di ranah generasi video yang sebelumnya didominasi model difusi
  • Generasi teks-ke-video (T2V), gambar-ke-video (I2V), dan video-ke-video (V2V) semuanya dapat ditangani dengan satu arsitektur

Desain inti dan struktur pelatihan

  • Model terdiri dari Deep Autoregressive Block (penalaran deret waktu global) dan Shallow Flow Block (penggambaran detail di dalam frame)
    • Yang pertama menangkap ketergantungan jangka panjang dalam ruang laten spatiotemporal
    • Yang kedua memodelkan struktur detail lokal pada tiap frame
  • Denoiser ringan kausal yang dilatih melalui Flow-Score Matching meningkatkan konsistensi keluaran
  • Tujuan pelatihan memakai struktur ganda: maximum likelihood estimation dan Flow-Score Matching

Kontribusi teknis utama

  • Arsitektur Global-Local
    • Blok Transformer kausal global menangani ketergantungan spatiotemporal jangka panjang
    • Blok flow dangkal per frame bertugas pada penggambaran detail lokal
    • Mengurangi masalah akumulasi error pada model autoregresif tingkat piksel
  • Denoising berbasis Flow-Score Matching
    • Secara bersamaan melatih denoiser saraf kausal yang memprediksi gradien distribusi probabilitas model (score)
    • Memungkinkan pemurnian satu langkah tanpa denoiser eksternal yang non-kausal atau tidak lengkap
  • Iterasi Jacobi yang sadar video
    • Merekonstruksi proses generasi sebagai penyelesaian sistem nonlinier untuk melakukan pembaruan laten paralel
    • Mempercepat proses melalui inisialisasi yang memanfaatkan informasi deret waktu dari frame berdekatan dan eksekusi pipeline

Spesifikasi model

  • Data pelatihan: 70M pasangan teks-video, 400M pasangan teks-gambar
  • Ukuran model: 7B parameter, resolusi keluaran 480p, frame rate 16fps
  • Berkat reversibilitas normalizing flow, berbagai tugas generasi dapat dilakukan tanpa mengubah arsitektur atau melatih ulang

Hasil generasi dan perbandingan

  • Teks-ke-video: menghasilkan beragam adegan seperti cahaya alami, gaya realistis, dan makro dengan kualitas tinggi
  • Gambar-ke-video: memperluas video dari gambar masukan sambil menjaga konsistensi temporal
  • Video-ke-video: melakukan beragam transformasi seperti penambahan objek, perubahan warna, perubahan gaya, dan inpainting
  • Generasi video panjang: video berdurasi 10–30 detik juga dapat dihasilkan dengan pendekatan autoregresif per segmen
  • Eksperimen perbandingan: menunjukkan hasil unggul dibanding NOVA dan WAN-Causal dalam fidelitas visual dan konsistensi temporal

Keterbatasan dan contoh kegagalan

  • Pada interaksi fisik yang kompleks atau gerakan cepat, kualitas menurun
  • Penyebab yang disebutkan meliputi keterbatasan sumber daya pelatihan, data berkualitas rendah, dan tidak adanya fine-tuning lanjutan (SFT·RL)
  • Contoh: gerakan tampak tidak alami pada adegan anjing mengibaskan air atau kambing melompat

Makna penelitian

  • STARFlow-V adalah bukti pertama bahwa normalizing flow cocok untuk generasi video autoregresif berkualitas tinggi
  • Menawarkan arah pendekatan alternatif baru bagi riset generasi video yang berpusat pada model difusi
  • Dinilai sebagai jalur riset yang menjanjikan untuk membangun world model

Belum ada komentar.

Belum ada komentar.