2 poin oleh GN⁺ 2025-04-21 | 1 komentar | Bagikan ke WhatsApp
  • Penelitian ini membahas metode untuk melakukan packing konteks frame input pada model prediksi frame berikutnya untuk pembuatan video
  • FramePack adalah metode untuk menjalankan prediksi frame secara efisien dengan mengoptimalkan layout memori GPU
  • Sumber daya GPU dialokasikan berdasarkan tingkat kepentingan frame untuk mengurangi kompleksitas komputasi menjadi O(1)
  • Untuk mengatasi masalah drifting, diusulkan sampling dua arah
  • Menekankan metode sampling anti-drifting terbalik yang memperlakukan frame pertama sebagai elemen penting dalam konversi gambar-ke-video

Packing frame input dalam pembuatan video

  • Model prediksi frame berikutnya menghasilkan frame baru dengan menggunakan beberapa frame input
  • FramePack mengenkode frame input agar sesuai dengan layout memori GPU, sehingga memungkinkan pembuatan frame yang efisien
  • Setiap frame dienkode menggunakan kernel patchifikasi, dan panjang konteks disesuaikan menurut tingkat kepentingannya
  • Sebagai contoh, pada HunyuanVideo, frame 480p menjadi 1536 token jika menggunakan kernel patchifikasi (1, 2, 2), dan menjadi 192 token jika menggunakan kernel patchifikasi (2, 4, 4)

Kepentingan frame dan penjadwalan

  • Frame yang penting mendapatkan alokasi sumber daya GPU yang lebih banyak
  • Melalui berbagai pola kompresi, frame awal dapat dibuat sama pentingnya
  • Semua penjadwalan memiliki kompleksitas O(1)
  • Makalah ini memberikan evaluasi terperinci terhadap berbagai penjadwalan

Masalah drifting dan cara mengatasinya

  • Drifting adalah masalah di mana penurunan kualitas terjadi ketika video menjadi semakin panjang
  • Ini juga disebut sebagai akumulasi kesalahan atau exposure bias
  • Untuk mengatasinya, diperkenalkan sampling dua arah dengan memutus kausalitas
  • Sampling anti-drifting terbalik menjadikan frame pertama sebagai target aproksimasi dalam semua proses inferensi

Performa konversi gambar-ke-video

  • Pada laptop RTX 3060 6GB, video gambar-ke-5-detik dan gambar-ke-60-detik dihasilkan menggunakan varian HY 13B
  • Hasilnya dikompresi dengan h264crf18 agar sesuai dengan repositori GitHub

1 komentar

 
GN⁺ 2025-04-21
Komentar Hacker News
  • Orang ini jenius. Bagi yang belum tahu bahwa dia juga yang mengembangkan ControlNet, ini adalah model generasi video pertama yang benar-benar layak dan bisa dijalankan di perangkat keras konsumen. Dukungan pose dari ControlNet juga tampaknya patut dinantikan
    • Lucunya, model ini benar-benar ingin orang-orang menari. Bahkan orang yang sedang duduk untuk wawancara pun mulai menari sambil duduk
    • Contoh-contohnya cukup mengesankan, dan sumber daya yang digunakan untuk menghasilkan ini nyaris tidak signifikan. Sepertinya inferensi juga bisa dilakukan pada perangkat keras konsumen generasi sebelumnya. Saya juga ingin melihat statistik throughput inferensi di 5090
    • Apakah ini bisa dilakukan secara spasial juga? Misalnya, alih-alih menghasilkan gambar sekaligus, apakah bisa dihasilkan dari atas ke bawah
    • Bisakah model ini digunakan untuk interpolasi alih-alih ekstrapolasi video
    • Mengejutkan. Kalau RAM-nya lebih banyak atau ada hal lain, apakah bisa lebih cepat? Apakah bisa mendapat kecepatan lebih tinggi di H100 atau H200
    • Satu-satunya gerakan yang tampaknya bisa dilakukan model ini adalah menari