STARFlow-V: Model generasi video end-to-end berbasis normalizing flow

(starflow-v.github.io)

2 poin oleh GN⁺ 2025-12-03 | 1 komentar | Bagikan ke WhatsApp

Normalizing flow digunakan untuk langsung menghasilkan video dari input teks, gambar, dan video dalam generator video kausal pertama
Pelatihan end-to-end, estimasi likelihood yang akurat, dan beragam tugas generasi (T2V/I2V/V2V) ditangani dalam satu model
Arsitektur Global-Local, Flow-Score Matching, dan iterasi Jacobi yang sadar video meningkatkan konsistensi spatiotemporal dan efisiensi
Model berukuran 7B parameter menghasilkan video 480p·16fps, dilatih dengan 70M data teks-video dan 400M data teks-gambar
Normalizing flow mencapai kualitas setara model berbasis difusi dan membuktikan potensi generasi video autoregresif berkualitas tinggi

Ikhtisar STARFlow-V

STARFlow-V adalah model generasi video kausal berbasis normalizing flow yang mencapai kualitas visual setara model difusi
- Menyediakan pelatihan end-to-end, estimasi likelihood yang akurat, dan dukungan untuk berbagai tugas generasi secara bersamaan
Membuktikan kepraktisan normalizing flow di ranah generasi video yang sebelumnya didominasi model difusi
Generasi teks-ke-video (T2V), gambar-ke-video (I2V), dan video-ke-video (V2V) semuanya dapat ditangani dengan satu arsitektur

Desain inti dan struktur pelatihan

Model terdiri dari Deep Autoregressive Block (penalaran deret waktu global) dan Shallow Flow Block (penggambaran detail di dalam frame)
- Yang pertama menangkap ketergantungan jangka panjang dalam ruang laten spatiotemporal
- Yang kedua memodelkan struktur detail lokal pada tiap frame
Denoiser ringan kausal yang dilatih melalui Flow-Score Matching meningkatkan konsistensi keluaran
Tujuan pelatihan memakai struktur ganda: maximum likelihood estimation dan Flow-Score Matching

Kontribusi teknis utama

Arsitektur Global-Local
- Blok Transformer kausal global menangani ketergantungan spatiotemporal jangka panjang
- Blok flow dangkal per frame bertugas pada penggambaran detail lokal
- Mengurangi masalah akumulasi error pada model autoregresif tingkat piksel
Denoising berbasis Flow-Score Matching
- Secara bersamaan melatih denoiser saraf kausal yang memprediksi gradien distribusi probabilitas model (score)
- Memungkinkan pemurnian satu langkah tanpa denoiser eksternal yang non-kausal atau tidak lengkap
Iterasi Jacobi yang sadar video
- Merekonstruksi proses generasi sebagai penyelesaian sistem nonlinier untuk melakukan pembaruan laten paralel
- Mempercepat proses melalui inisialisasi yang memanfaatkan informasi deret waktu dari frame berdekatan dan eksekusi pipeline

Spesifikasi model

Data pelatihan: 70M pasangan teks-video, 400M pasangan teks-gambar
Ukuran model: 7B parameter, resolusi keluaran 480p, frame rate 16fps
Berkat reversibilitas normalizing flow, berbagai tugas generasi dapat dilakukan tanpa mengubah arsitektur atau melatih ulang

Hasil generasi dan perbandingan

Teks-ke-video: menghasilkan beragam adegan seperti cahaya alami, gaya realistis, dan makro dengan kualitas tinggi
Gambar-ke-video: memperluas video dari gambar masukan sambil menjaga konsistensi temporal
Video-ke-video: melakukan beragam transformasi seperti penambahan objek, perubahan warna, perubahan gaya, dan inpainting
Generasi video panjang: video berdurasi 10–30 detik juga dapat dihasilkan dengan pendekatan autoregresif per segmen
Eksperimen perbandingan: menunjukkan hasil unggul dibanding NOVA dan WAN-Causal dalam fidelitas visual dan konsistensi temporal

Keterbatasan dan contoh kegagalan

Pada interaksi fisik yang kompleks atau gerakan cepat, kualitas menurun
Penyebab yang disebutkan meliputi keterbatasan sumber daya pelatihan, data berkualitas rendah, dan tidak adanya fine-tuning lanjutan (SFT·RL)
Contoh: gerakan tampak tidak alami pada adegan anjing mengibaskan air atau kambing melompat

Makna penelitian

STARFlow-V adalah bukti pertama bahwa normalizing flow cocok untuk generasi video autoregresif berkualitas tinggi
Menawarkan arah pendekatan alternatif baru bagi riset generasi video yang berpusat pada model difusi
Dinilai sebagai jalur riset yang menjanjikan untuk membangun world model

1 komentar

GN⁺ 2025-12-03

Pendapat Hacker News

Apple juga punya model pemahaman video
Sebagai penyandang tunanetra, AI benar-benar telah mengubah hidup saya sepenuhnya. Saya sangat menantikan bagaimana fitur aksesibilitas bisa berkembang dengan model ini
- Cerita seperti ini jarang terlihat di headline berita, jadi ini komentar yang benar-benar menyenangkan untuk dibaca
- Beberapa tahun lalu mereka juga menambahkan fitur yang mendeteksi tangisan bayi dan mengirim notifikasi untuk orang tua tunarungu
- Mungkin ini komentar berkualitas rendah, tetapi saya sungguh merasa ikut memberi selamat dan senang
- Saya penasaran apakah Anda bisa berbagi lebih spesifik tentang bagaimana AI telah mengubah hidup Anda
- Menyenangkan melihat kabar baik yang langka, di mana AI benar-benar membantu orang
Lisensi Apple dibatasi hanya untuk riset nonkomersial, jadi tidak sesuai dengan definisi open source
Karena itu, saya rasa lebih tepat menyebutnya “weights available” daripada “open source”
- Sebenarnya bahkan weights-nya pun belum dirilis
  Menurut hukum AS, bobot model bukanlah karya cipta melainkan hasil keluaran mesin, jadi dianggap tidak memiliki hak cipta
  Karena itu saya mungkin akan mengabaikan lisensi tak bermakna seperti ini dan menggunakannya dengan bebas
Konsep “model open weight” terasa seperti ‘versi bahasa mesin Windows yang open source’, jadi agak mengganjal
Lisensi Apple berbentuk clickwrap ala MIT, jadi setidaknya masih melegakan bahwa ada izin untuk modifikasi dan redistribusi
- Analogi yang bagus. Kalau diperluas, “bahasa mesin tertutup” mirip dengan model SaaS yang khas
  Tetap saja, bisa langsung memakai binarinya menurut saya lebih baik daripada hanya ditawari SaaS
- Fakta bahwa ini bisa dijalankan secara lokal itu penting
  Open weight berbeda dari file executable biasa karena memungkinkan pelatihan ulang atau distillation
- Mungkin Anda mencampuradukkan lisensi kode dengan lisensi model
Saya melihat contoh text-to-video dan jujur saja tidak terkesan
Ini mengingatkan saya pada video Will Smith makan mi yang dulu. Apa saya melewatkan sesuatu?
- Terlihat tertinggal sekitar 2 tahun dibanding teknologi mutakhir
  Meski begitu, tetap bermakna karena dirilis agar para peneliti bisa bereksperimen
- Kalau menonton lagi video Will Smith spaghetti itu, Anda akan melihat bahwa contoh kali ini jauh lebih baik
  Memang belum sempurna, tetapi di antara model yang dirilis ke publik, ini mungkin salah satu yang paling maju
  Hanya saja masih dipertanyakan apakah lisensinya cukup “terbuka”
- Saya juga berpikir sama. Ada bagian yang terasa janggal, seperti cairan di cangkir yang terus naik padahal sudah berhenti
Sebagai riset, proyek ini menunjukkan upaya baru dan potensi
tetapi dari sudut pandang produk, keterbatasan sumber daya komputasi terlihat sangat jelas
Ini juga sejalan dengan laporan bahwa CFO menghalangi keputusan CEO untuk berinvestasi pada infrastruktur ML
Dari keluarnya JG, perombakan besar-besaran di divisi AI, hingga rumor pensiunnya Tim pada 2026,
tampaknya kubu non-ML menang dalam politik internal perusahaan
Meski begitu, pendekatannya menarik, jadi saya berharap orang lain bisa membangun sesuatu yang berguna di atasnya
Menurut makalahnya, model ini adalah model riset yang mencoba mengatasi masalah akumulasi error pada model video diffusion
Disebutkan bahwa ruang laten dirancang dengan struktur kausal (causal) untuk meningkatkan konsistensi
Hasilnya cukup bagus untuk model berukuran 7B
Jika Apple mengeluarkan model setingkat wan atau veo, rasanya model itu akan dilatih dengan data yang sangat rapi
STARFlow-V disebut dilatih pada sekitar 20 juta video menggunakan 96 GPU H100
Namun, lama pelatihannya tidak disebutkan
- Menarik bahwa Apple Intelligence dilatih dengan Nvidia GPU dan Linux
  Saya penasaran apakah contoh-contoh di repo itu juga bisa melakukan inferensi di Mac
Judulnya salah. Modelnya masih belum dirilis, dan di tautannya pun tidak ada keterangan seperti itu
Saya heran kenapa judul yang diedit seperti itu dipakai
Modelnya memang terlihat bagus, tetapi saya penasaran kasus penggunaan apa yang dibayangkan Apple
Bisa saja ini hanya minat para peneliti, dan saya tidak tahu apakah arah riset di perusahaan besar ditentukan dari atas
- Apple kuat di bidang video dan animasi karena keterkaitannya dengan Pixar dan Disney
  Ada banyak hubungan yang berlanjut sejak era Jobs
- Mungkin untuk menambahkan efek generatif pada video yang direkam dengan iPhone
  TikTok atau Instagram mungkin akan segera menambahkan fitur seperti ini, tetapi Apple tampaknya ingin menyediakannya sendiri
  Secara pribadi, saya rasa akuisisi Snapchat akan jadi strategi yang bagus
Di repo tertulis “Pretrained checkpoints will be released soon”
Artinya, saat ini ini masih bukan open weight
Model itu baru akan menjadi model terbuka yang sesungguhnya jika bobotnya benar-benar dirilis
Kata “Soon” sendiri entah berarti kapan

STARFlow-V: Model generasi video end-to-end berbasis normalizing flow

Ikhtisar STARFlow-V

Desain inti dan struktur pelatihan

Kontribusi teknis utama

Spesifikasi model

Hasil generasi dan perbandingan

Keterbatasan dan contoh kegagalan

Makna penelitian

Bacaan terkait

1 komentar

Pendapat Hacker News