2 poin oleh GN⁺ 2025-12-03 | 1 komentar | Bagikan ke WhatsApp
  • Normalizing flow digunakan untuk langsung menghasilkan video dari input teks, gambar, dan video dalam generator video kausal pertama
  • Pelatihan end-to-end, estimasi likelihood yang akurat, dan beragam tugas generasi (T2V/I2V/V2V) ditangani dalam satu model
  • Arsitektur Global-Local, Flow-Score Matching, dan iterasi Jacobi yang sadar video meningkatkan konsistensi spatiotemporal dan efisiensi
  • Model berukuran 7B parameter menghasilkan video 480p·16fps, dilatih dengan 70M data teks-video dan 400M data teks-gambar
  • Normalizing flow mencapai kualitas setara model berbasis difusi dan membuktikan potensi generasi video autoregresif berkualitas tinggi

Ikhtisar STARFlow-V

  • STARFlow-V adalah model generasi video kausal berbasis normalizing flow yang mencapai kualitas visual setara model difusi
    • Menyediakan pelatihan end-to-end, estimasi likelihood yang akurat, dan dukungan untuk berbagai tugas generasi secara bersamaan
  • Membuktikan kepraktisan normalizing flow di ranah generasi video yang sebelumnya didominasi model difusi
  • Generasi teks-ke-video (T2V), gambar-ke-video (I2V), dan video-ke-video (V2V) semuanya dapat ditangani dengan satu arsitektur

Desain inti dan struktur pelatihan

  • Model terdiri dari Deep Autoregressive Block (penalaran deret waktu global) dan Shallow Flow Block (penggambaran detail di dalam frame)
    • Yang pertama menangkap ketergantungan jangka panjang dalam ruang laten spatiotemporal
    • Yang kedua memodelkan struktur detail lokal pada tiap frame
    Iklan
  • Denoiser ringan kausal yang dilatih melalui Flow-Score Matching meningkatkan konsistensi keluaran
  • Tujuan pelatihan memakai struktur ganda: maximum likelihood estimation dan Flow-Score Matching

Kontribusi teknis utama

  • Arsitektur Global-Local
    • Blok Transformer kausal global menangani ketergantungan spatiotemporal jangka panjang
    • Blok flow dangkal per frame bertugas pada penggambaran detail lokal
    • Mengurangi masalah akumulasi error pada model autoregresif tingkat piksel
  • Denoising berbasis Flow-Score Matching
    • Secara bersamaan melatih denoiser saraf kausal yang memprediksi gradien distribusi probabilitas model (score)
    • Memungkinkan pemurnian satu langkah tanpa denoiser eksternal yang non-kausal atau tidak lengkap
  • Iterasi Jacobi yang sadar video
    • Merekonstruksi proses generasi sebagai penyelesaian sistem nonlinier untuk melakukan pembaruan laten paralel
    • Mempercepat proses melalui inisialisasi yang memanfaatkan informasi deret waktu dari frame berdekatan dan eksekusi pipeline
Iklan

Spesifikasi model

  • Data pelatihan: 70M pasangan teks-video, 400M pasangan teks-gambar
  • Ukuran model: 7B parameter, resolusi keluaran 480p, frame rate 16fps
  • Berkat reversibilitas normalizing flow, berbagai tugas generasi dapat dilakukan tanpa mengubah arsitektur atau melatih ulang

Hasil generasi dan perbandingan

  • Teks-ke-video: menghasilkan beragam adegan seperti cahaya alami, gaya realistis, dan makro dengan kualitas tinggi
  • Gambar-ke-video: memperluas video dari gambar masukan sambil menjaga konsistensi temporal
  • Video-ke-video: melakukan beragam transformasi seperti penambahan objek, perubahan warna, perubahan gaya, dan inpainting
  • Generasi video panjang: video berdurasi 10–30 detik juga dapat dihasilkan dengan pendekatan autoregresif per segmen
  • Eksperimen perbandingan: menunjukkan hasil unggul dibanding NOVA dan WAN-Causal dalam fidelitas visual dan konsistensi temporal

Keterbatasan dan contoh kegagalan

  • Pada interaksi fisik yang kompleks atau gerakan cepat, kualitas menurun
  • Penyebab yang disebutkan meliputi keterbatasan sumber daya pelatihan, data berkualitas rendah, dan tidak adanya fine-tuning lanjutan (SFT·RL)
  • Contoh: gerakan tampak tidak alami pada adegan anjing mengibaskan air atau kambing melompat

Makna penelitian

  • STARFlow-V adalah bukti pertama bahwa normalizing flow cocok untuk generasi video autoregresif berkualitas tinggi
  • Menawarkan arah pendekatan alternatif baru bagi riset generasi video yang berpusat pada model difusi
  • Dinilai sebagai jalur riset yang menjanjikan untuk membangun world model

1 komentar

 
GN⁺ 2025-12-03
Pendapat Hacker News
  • Apple juga punya model pemahaman video
    Sebagai penyandang tunanetra, AI benar-benar telah mengubah hidup saya sepenuhnya. Saya sangat menantikan bagaimana fitur aksesibilitas bisa berkembang dengan model ini

    • Cerita seperti ini jarang terlihat di headline berita, jadi ini komentar yang benar-benar menyenangkan untuk dibaca
    • Beberapa tahun lalu mereka juga menambahkan fitur yang mendeteksi tangisan bayi dan mengirim notifikasi untuk orang tua tunarungu
    • Mungkin ini komentar berkualitas rendah, tetapi saya sungguh merasa ikut memberi selamat dan senang
    • Saya penasaran apakah Anda bisa berbagi lebih spesifik tentang bagaimana AI telah mengubah hidup Anda
    • Menyenangkan melihat kabar baik yang langka, di mana AI benar-benar membantu orang
  • Lisensi Apple dibatasi hanya untuk riset nonkomersial, jadi tidak sesuai dengan definisi open source
    Karena itu, saya rasa lebih tepat menyebutnya “weights available” daripada “open source”

    • Sebenarnya bahkan weights-nya pun belum dirilis
      Menurut hukum AS, bobot model bukanlah karya cipta melainkan hasil keluaran mesin, jadi dianggap tidak memiliki hak cipta
      Karena itu saya mungkin akan mengabaikan lisensi tak bermakna seperti ini dan menggunakannya dengan bebas
  • Konsep “model open weight” terasa seperti ‘versi bahasa mesin Windows yang open source’, jadi agak mengganjal
    Lisensi Apple berbentuk clickwrap ala MIT, jadi setidaknya masih melegakan bahwa ada izin untuk modifikasi dan redistribusi

    • Analogi yang bagus. Kalau diperluas, “bahasa mesin tertutup” mirip dengan model SaaS yang khas
      Tetap saja, bisa langsung memakai binarinya menurut saya lebih baik daripada hanya ditawari SaaS
    • Fakta bahwa ini bisa dijalankan secara lokal itu penting
      Open weight berbeda dari file executable biasa karena memungkinkan pelatihan ulang atau distillation
    • Mungkin Anda mencampuradukkan lisensi kode dengan lisensi model
  • Saya melihat contoh text-to-video dan jujur saja tidak terkesan
    Ini mengingatkan saya pada video Will Smith makan mi yang dulu. Apa saya melewatkan sesuatu?

    • Terlihat tertinggal sekitar 2 tahun dibanding teknologi mutakhir
      Meski begitu, tetap bermakna karena dirilis agar para peneliti bisa bereksperimen
    • Kalau menonton lagi video Will Smith spaghetti itu, Anda akan melihat bahwa contoh kali ini jauh lebih baik
      Memang belum sempurna, tetapi di antara model yang dirilis ke publik, ini mungkin salah satu yang paling maju
      Hanya saja masih dipertanyakan apakah lisensinya cukup “terbuka”
    • Saya juga berpikir sama. Ada bagian yang terasa janggal, seperti cairan di cangkir yang terus naik padahal sudah berhenti
  • Sebagai riset, proyek ini menunjukkan upaya baru dan potensi
    tetapi dari sudut pandang produk, keterbatasan sumber daya komputasi terlihat sangat jelas
    Ini juga sejalan dengan laporan bahwa CFO menghalangi keputusan CEO untuk berinvestasi pada infrastruktur ML
    Dari keluarnya JG, perombakan besar-besaran di divisi AI, hingga rumor pensiunnya Tim pada 2026,
    tampaknya kubu non-ML menang dalam politik internal perusahaan
    Meski begitu, pendekatannya menarik, jadi saya berharap orang lain bisa membangun sesuatu yang berguna di atasnya

  • Menurut makalahnya, model ini adalah model riset yang mencoba mengatasi masalah akumulasi error pada model video diffusion
    Disebutkan bahwa ruang laten dirancang dengan struktur kausal (causal) untuk meningkatkan konsistensi
    Hasilnya cukup bagus untuk model berukuran 7B
    Jika Apple mengeluarkan model setingkat wan atau veo, rasanya model itu akan dilatih dengan data yang sangat rapi

  • STARFlow-V disebut dilatih pada sekitar 20 juta video menggunakan 96 GPU H100
    Namun, lama pelatihannya tidak disebutkan

    • Menarik bahwa Apple Intelligence dilatih dengan Nvidia GPU dan Linux
      Saya penasaran apakah contoh-contoh di repo itu juga bisa melakukan inferensi di Mac
  • Judulnya salah. Modelnya masih belum dirilis, dan di tautannya pun tidak ada keterangan seperti itu
    Saya heran kenapa judul yang diedit seperti itu dipakai

  • Modelnya memang terlihat bagus, tetapi saya penasaran kasus penggunaan apa yang dibayangkan Apple
    Bisa saja ini hanya minat para peneliti, dan saya tidak tahu apakah arah riset di perusahaan besar ditentukan dari atas

    • Apple kuat di bidang video dan animasi karena keterkaitannya dengan Pixar dan Disney
      Ada banyak hubungan yang berlanjut sejak era Jobs
    • Mungkin untuk menambahkan efek generatif pada video yang direkam dengan iPhone
      TikTok atau Instagram mungkin akan segera menambahkan fitur seperti ini, tetapi Apple tampaknya ingin menyediakannya sendiri
      Secara pribadi, saya rasa akuisisi Snapchat akan jadi strategi yang bagus
  • Di repo tertulis “Pretrained checkpoints will be released soon
    Artinya, saat ini ini masih bukan open weight
    Model itu baru akan menjadi model terbuka yang sesungguhnya jika bobotnya benar-benar dirilis
    Kata “Soon” sendiri entah berarti kapan