1 poin oleh GN⁺ 2 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • SANA-WM dari NVIDIA menerima masukan 1 gambar dan lintasan kamera 6-DoF untuk menghasilkan video terkontrol 720p berdurasi 1 menit di satu GPU
  • Hybrid Linear Diffusion Transformer menggabungkan Gated DeltaNet per frame dan softmax periodik untuk menjaga konsistensi pada rollout panjang
  • Pelatihannya memerlukan 15 hari di 64 H100, dan varian distilasinya mendenoise klip 720p 60 detik dalam 34 detik di satu RTX 5090 dengan NVFP4
  • Menggunakan sekitar 213 ribu video publik dan supervisi pose 6-DoF berskala meter untuk mendukung pelacakan jalur kamera yang presisi
  • Pada benchmark model dunia 1 menit, model ini menunjukkan akurasi pelacakan aksi lebih tinggi dibanding baseline open-source sebelumnya, dan mencapai throughput 36 kali lebih tinggi pada kualitas visual yang serupa

Model dan materi yang dirilis

  • SANA-WM adalah model dunia open-source 2,6 miliar parameter yang menerima satu gambar dan lintasan kamera sebagai input untuk menghasilkan video terkontrol 720p berdurasi 1 menit
  • Proyek ini melibatkan Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han, dan Enze Xie dari NVIDIA
  • Tersedia materi Paper, Code, dan Models soon
  • Judul makalahnya adalah SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

Desain inti dan pipeline generasi

  • Arsitektur hibrida untuk rollout panjang

    • Hybrid Linear Diffusion Transformer menggabungkan Gated DeltaNet per frame dan softmax periodik untuk menjaga konsistensi dunia dalam rollout berdurasi menit
    • Dalam perbandingan efisiensi, varian recurrent berskala lebih kecil dari sisi memori dan latensi, sedangkan pendekatan all-softmax mengalami OOM saat generasi 60 detik
  • Kontrol kamera presisi

    • SANA-WM menerima lintasan kamera 6-DoF sebagai input untuk menghasilkan video yang mengikuti jalur kamera metrik
    • Cabang pose global yang kasar dan cabang geometri penyelarasan piksel yang rinci bekerja bersama untuk meningkatkan kesetiaan pelacakan jalur kamera
    • Model ini mengekstrak pose kamera 6-DoF akurat berskala meter dari video publik untuk membuat label aksi berkualitas tinggi yang konsisten secara spasio-temporal
  • Peningkatan kualitas dua tahap

    • Pada keluaran tahap 1, diterapkan refiner video panjang 17B untuk meningkatkan kualitas dan konsistensi di seluruh sekuens
    • Refiner ini mempertajam tekstur, gerakan, dan kualitas bagian akhir di atas backbone rollout panjang

Efisiensi pelatihan dan inferensi

  • Pelatihan memerlukan 15 hari di 64 H100, dan data pelatihan menggunakan sekitar 213 ribu klip video publik serta supervisi pose berskala meter
  • Pada inferensi, video 720p berdurasi 1 menit dapat dihasilkan dengan satu H100
  • Model varian distilasi menggunakan kuantisasi NVFP4 pada 1 RTX 5090 untuk mendenoise klip 720p 60 detik dalam 34 detik
  • SANA-WM menunjukkan kualitas visual yang sebanding dengan baseline industri skala besar seperti LingBot-World dan HY-WorldPlay sambil meningkatkan efisiensi
  • Pada benchmark model dunia 1 menit, SANA-WM menunjukkan akurasi pelacakan aksi yang lebih tinggi daripada baseline open-source sebelumnya, dan mencapai throughput 36 kali lebih tinggi pada kualitas visual yang serupa

Karakteristik generasi yang terlihat di demo

  • Demo dunia 1 menit

    • Banyak contoh 1 menit mempertahankan sudut pandang tetap orang pertama, sambil menghasilkan pergerakan lingkungan itu sendiri tanpa perpindahan kamera atau aksi pengamat
    • Video 68: menampilkan jalan Alpen bersalju, tebing, mulut gua, es gantung, pohon pinus yang membungkuk diterpa angin, dan pendaki berjaket oranye, dengan partikel salju, kabut, ranting bergoyang, dan aliran bubuk salju yang dihasilkan
    • Video 72: menghasilkan jalur bercabang tiga di persimpangan terbuka menuju hutan biru, menara reruntuhan di bawah awan badai, dan desa yang disinari matahari
    • Video 81: menampilkan persimpangan berbentuk T di fasilitas riset SF bawah tanah tertutup, koridor kiri yang tergenang, koridor kanan penuh uap, dan pintu logam bundar yang terbuka ke dalam kegelapan
  • Demo dunia 20 detik

    • Video 82: menampilkan interior kabin terbengkalai di pegunungan, peta gambar tangan, kunci berkarat, lentera hangat, dan gua keemasan di balik jalan hutan bersalju, dengan asap bara, nyala lentera, dan badai salju di celah pintu yang bergerak
    • Video 85: menampilkan pintu bundar tersegel di reruntuhan hutan, simbol hijau, dan robot penjelajah kecil, dengan sulur, serangga, kupu-kupu, genangan air, dan simbol pintu yang berdenyut
    • Video 92: menampilkan lorong batu kuil kuno bawah air, pilar karang, retakan bercahaya hijau, dan robot selam bulat kecil, dengan ikan, gelembung, partikel, lamun, dan caustics ditambahkan
  • Frame pertama yang sama dan prompt berulang

    • Video 100, Video 101, Video 102: dari prompt dataran garam yang sama, model mempertahankan mobil sport, kerak garam kasar, dan cahaya matahari rendah sambil menghasilkan debu garam, pergerakan awan, fatamorgana panas, dan garis angin di permukaan
    • Video 103, Video 104, Video 105: air reflektif dangkal, batu pijakan lumpur, hutan ungu, pesawat luar angkasa jatuh yang setengah tenggelam, astronaut berseragam luar angkasa, dan makhluk alien kecil muncul sebagai variasi dari prompt yang sama
    • Video 119, Video 120, Video 121: menghasilkan ombak, daun palem, burung, dan pergerakan awan dari sudut pandang tetap dalam adegan matahari terbit di pantai tropis

Contoh efek Refiner

  • Ngarai hutan

    • Video 124 dan Video 125 adalah contoh Stage 1 Refined yang menggambarkan bagian dalam ngarai hutan raksasa dari sudut pandang orang pertama yang tetap
    • Termasuk kuil batu kuno yang samar terlihat di balik air terjun, pesawat kertas terlipat, burung berwarna-warni, daun melayang, dinding batu basah, sulur yang kusut, dan tetesan air
    • Air terjun, kabut, kepakan sayap burung, daun gugur, tetesan air berkilau, dan pesawat kertas yang bergetar karena aliran udara bergerak secara otonom
  • Gerbang kuno yang dipahat di tebing

    • Video 126 dan Video 127 menampilkan gerbang kuno di dalam tebing yang berada di dataran tinggi hutan
    • Anak tangga batu membentang dari jalan berlumut ke gerbang yang setengah terbuka, dengan pilar berukir, patung penjaga, dinding tertutup ivy, lembah pegunungan di kiri, dan pengelana berjubah di dekat pintu masuk
    • Cahaya matahari sore yang hangat berpadu dengan cahaya hijau kebiruan yang bocor dari gerbang, sementara daun, burung, sulur, dan cahaya portal bergerak secara independen
  • Kuil kuno yang terendam

    • Video 130 dan Video 131 menampilkan hasil Stage 1 dan refined secara berdampingan
    • Jalur pejalan kaki batu membentang di antara pilar berkarang, dan cahaya hijau terang bocor dari retakan pusat di dinding ritual yang pecah, sejajar dengan simbol bercahaya di lantai
    • Robot selam bulat kecil melayang di depan, sementara ikan, gelembung, partikel, lamun, caustics, dan simbol hijau bergerak secara otonom

Catatan pembuatan demo

  • Semua video di halaman ini dihasilkan dengan varian bidirectional SANA-WM, lalu diproses lebih lanjut oleh refiner video panjang dua tahap
  • Gambar frame pertama dari semua video demo di galeri dibuat dengan OpenAI GPT Image 2 dan Google Nano Banana Pro, lalu SANA-WM menganimasikan gambar diam tersebut menjadi video berdurasi 1 menit

1 komentar

 
GN⁺ 2 jam lalu
Komentar Hacker News
  • Dari sudut pandang video game, world model seperti ini terasa kurang meyakinkan
    Saya bukan pengembang game langsung, tetapi game-game yang saya sukai punya intensionalitas yang dalam. Misalnya pada game FromSoftware atau Lies of P belakangan ini, biasanya tidak ada satu pun benda yang diletakkan sembarangan, dan hampir semua objek ditempatkan dengan sengaja
    Sebaliknya, game tanpa intensionalitas seperti ini terasa mati, merusak imersi, atau membuat kita keluar dari pengalaman yang ingin disampaikan pengembang
    Sulit membayangkan world model bisa mencapai tingkat yang mampu menangkap intensionalitas seperti itu. Bahkan LLM papan atas pun sering gagal dalam menulis, juga dalam kode, dan permukaan pengalaman media-media itu tampak lebih kecil daripada rentang interaksi pengguna dalam video game
    Juga belum jelas bagaimana world model seperti ini bisa dipakai secara modular ketika manusia ingin membuat pengalaman yang disengaja. LLM bisa dimodularisasi sampai batas tertentu, misalnya satu model membuat teks, lalu manusia mengeditnya, lalu LLM lain melanjutkan, tetapi saya tidak tahu apakah output video di sini juga seperti itu
    Pada akhirnya world model itu sendiri memang mengesankan, tetapi seperti LLM untuk menulis, tidak jelas apa yang sebenarnya sedang kita bangun. Apakah ini hanya memungkinkan kita membuat pengalaman yang kurang memuaskan dan kurang manusiawi dengan lebih cepat, ataukah manfaat paling langsung justru untuk sistem robotik yang membangun dunia, membayangkan hasil tindakan, dan mensimulasikannya
    Secara umum, rasanya kita sedang melaju ke dunia di mana intensionalitas di balik semua yang kita alami semakin berkurang, dan segalanya menjadi lebih impersonal dan lebih bising

    • Ada dua hal di sini. Pertama, baik lingkungan yang dirancang dengan teliti maupun lingkungan generasi prosedural sama-sama mungkin dibuat tanpa AI, dan keduanya bisa dibuat dengan baik. Sebaliknya, keduanya juga bisa gagal karena alasan khas masing-masing
      Generasi prosedural yang ceroboh bisa menghasilkan kurangnya variasi atau hasil yang tidak masuk akal, sementara penempatan manual yang ceroboh bisa melanggar aturan yang dibangun game dan menciptakan pengalaman yang tidak konsisten
      Menjaga konsistensi internal lewat penempatan eksplisit makin sulit seiring skala membesar. Jika konsistensi internal adalah faktor yang memengaruhi kualitas, maka pada skala tertentu konten generatif justru bisa menjadi solusi dengan kualitas lebih tinggi
      Kedua, aturan yang sama soal kecerobohan juga berlaku saat membuat konten dengan AI. Ada alat AI generatif yang hampir tidak memberi opsi untuk menyusun apa yang diinginkan, tetapi itu bukan sifat esensial AI. Kadang memang karena orang menginginkan antarmuka yang sederhana, dan kadang karena generatornya masih baru sehingga alih-alih memberi kontrol rinci, fokusnya dulu hanya membuatnya bisa melakukan sesuatu, sehingga mekanisme kontrolnya terbatas
      Dalam beberapa hal, teknologinya masih terlalu baru sehingga sulit menjelaskan kemampuan kontrol seperti apa yang diinginkan, dan menurut saya jalur yang masuk akal adalah membuat generatornya lebih dulu lalu melihat apa yang ingin dilakukan orang, sebelum membangun fitur kontrol yang diinginkan. Sudah ada alat untuk mengontrol gaya hasil, penempatan objek, pergerakan kamera, dan komposisi adegan pada tingkat tinggi, tetapi jauh lebih sedikit orang yang melihatnya
      AI bisa memungkinkan hal-hal yang sebelumnya tak bisa dibuat, tetapi untuk membuat sesuatu yang istimewa tetap dibutuhkan ketelitian
    • Benar. Ini akan membanjiri dunia dengan konten yang tampak meyakinkan tetapi kosong di dalamnya. Kita juga bisa menempelkan topik yang diinginkan
      Orang dengan standar rendah mungkin tidak akan mengeluh, tetapi sisanya akan makin banyak menghabiskan waktu untuk menemukan 1 dari 100, ketika 99 sisanya hanyalah kebisingan
      Cukup mirip dengan Amazon. Gabungan peringkat yang rusak, tampilan harga satuan yang dimanipulasi, dan banjir tiruan murahan membuat pengguna menyerah lalu membeli barang yang muncul di atas, yaitu daftar rekomendasi atau tiruan buatan Amazon
      Jika Anda mencari beberapa produk di web lalu membuka tab gambar, sering kali 50~90% hasilnya berupa tautan produk Amazon
    • Saya rasa model seperti ini akan mirip mesin cetak Gutenberg zaman dulu. Jumlah konten akan melonjak drastis, dan sebagian besar tidak akan terlalu bagus
      Namun berkat volumenya yang luar biasa, secara keseluruhan konten berkualitas tinggi juga bisa tercipta lebih banyak. Dengan kata lain, kualitas rata-rata game mungkin turun, tetapi laju kemunculan game yang benar-benar “hebat” akan meningkat
    • Saya rasa ini menangkap inti dari apa yang sedang terjadi di AI secara umum saat ini. Grafik, gambar, video, musik, teks, kode, semuanya terlihat hebat tetapi terasa hampa dan tak bernilai
      Dalam pekerjaan apa pun dalam hidup, kualitas hasil adalah cerminan langsung dari perhatian dan niat yang dimasukkan ke dalamnya. Jika disederhanakan, itu cerminan dari seberapa besar upaya yang dicurahkan, dan itu selalu terlihat. Di era AI pun tetap begitu
      Hanya saja jalur menuju hasil tanpa usaha kini jauh lebih pendek, sehingga volumenya meningkat dan kesan keseluruhannya menjadi terdilusi. Hasil murah seperti ini akan membuat setiap bidang yang disentuhnya terasa murahan, sehingga untuk menonjol justru dibutuhkan usaha yang lebih besar
    • Contoh seperti FromSoftware atau Lies of P, di mana setiap benda ditempatkan dengan sengaja, adalah contoh yang cukup spesifik dan berat sebelah
      Ada banyak game bagus yang tidak bergantung pada penempatan item yang rinci. Misalnya banyak game Bethesda dulu hebat justru karena sebagian besar benda hanyalah dekorasi tak berguna, tetapi karya terbarunya menjadi jauh lebih buruk ketika mereka memberi tujuan pada barang rongsokan dan merusak aturan itu
      Ada juga banyak game bagus yang sama sekali tidak bertumpu pada intensionalitas seperti itu, dan secara harfiah hanya melemparkan ide-ide keren secara acak lalu menempelkannya, atau dibuat secara prosedural
  • Fakta bahwa bobot model akan dirilis “segera” berarti untuk saat ini ini hanyalah vaporware. Kalau bobotnya bahkan belum dibuka, bagaimana bisa disebut “open source”
    Wajar kalau semua orang skeptis bahwa hasil seperti ini keluar dari model 2.8B. Tanpa bobot, seolah-olah ini tidak pernah terjadi

  • Dibilang 2.6B, tetapi setelah itu ada frasa seperti ini
    refiner video panjang 17B khusus yang mempertajam tekstur, gerakan, dan kualitas bagian akhir di atas backbone rollout panjang”

  • Semuanya terlihat seperti video game. Mungkin mereka membuat data sintetis untuk pelatihan dengan Unreal Engine

  • Menjalankan ini di GPU cukup mengesankan. Saya melihat ada yang menyampaikan keluhan dan kekhawatiran, tetapi ini masih tahap awal, dan kondisi sekarang kemungkinan adalah yang terburuk, jadi saya sangat menantikan dampaknya pada game

  • Mungkin ini pertanyaan bodoh, tetapi bagian mana dari yang dihasilkan di sini yang disebut “world”? Apakah ada representasi abstrak ruang fisik nyata, misalnya seperti scene graph ala game engine, atau maksudnya hanya “generator video ini lebih konsisten secara fisik daripada generator video lain”

    • World model adalah model yang memprediksi keadaan berikutnya dari dunia yang disimulasikan, berdasarkan keadaan saat ini dan, secara opsional, tindakan agen yang hidup di dalam dunia itu. Ini cukup mirip dengan language model yang memprediksi kata berikutnya
      Keadaan dunia itu bisa berupa apa saja, tetapi dalam 1~2 tahun terakhir istilah ini dipakai dalam arti yang lebih sempit. Yaitu model pembuat video yang merespons manipulasi seperti dalam game secara alami, sehingga tampak seperti mensimulasikan video game. Namun tidak ada keadaan tambahan di balik frame video itu
    • Dalam konteks ini, world berarti video-video ini dapat diinteraksikan seperti video game. Pada contoh yang ditautkan, Anda bisa melihat input keyboard dan mouse
      Model ini dilatih untuk menjaga konsistensi adegan selama sekitar 1 menit, sehingga setelah melihat sekeliling, objek yang sempat keluar dari layar akan muncul lagi saat Anda melihat ke arah itu kembali
  • Di mana unduhannya? Saya tidak menemukannya di GitHub, dan tombol unduh di halaman web juga nonaktif
    Dan apakah ini bisa dijalankan di RTX 4090 dengan memori 24GB?

  • Peringatan: saat saya melihat video yang autoplay di halaman itu, unduhan melonjak sampai 350Mbps

    • Saya baru sadar setelah membiarkan halaman itu terbuka di tab lebih dari satu jam. Apa benar video yang sama terus di-streaming dan di-streaming ulang? Apakah terlalu besar untuk di-cache sehingga terus dikirim ulang tanpa henti
      Saya harap tidak ada orang di jaringan berkuota atau terbatas yang membiarkan halaman itu tetap terbuka
      Saya heran GitHub belum menurunkan halaman itu
      Apakah para peneliti AI sudah terlalu terbiasa membakar sumber daya komputasi dan jaringan sampai tidak lagi memikirkan halaman web yang autoplay dan mengulang beberapa video HD
    • Dengan koneksi 70Mbps saya bahkan tidak bisa membuat videonya selesai buffering, jadi saya menyerah menontonnya. Juga tidak terlihat setinggi itu kualitasnya
  • Bahwa model 2.6B bisa menghasilkan video berdurasi 1 menit dengan kualitas dan konsistensi seperti itu terasa luar biasa sampai sulit dipercaya

  • Video pertama tentang pria berjalan di pegunungan bersalju punya masalah konsistensi mulut gua. Apakah itu “terduga” untuk ukuran model seperti ini

    • Kebanyakan video tampaknya memang punya masalah seperti itu. Misalnya di video perpustakaan, bentuk buku di atas meja kadang berubah
      Jika contoh-contohnya representatif, efek ‘Refiner’ justru tampak bekerja sebaliknya. Dalam semua kasus, gambar tahap 1 terlihat lebih baik daripada gambar yang ‘disempurnakan’. Lebih sedikit kekacauan, lebih realistis, dan bagi yang paham istilahnya, terasa lebih sedikit “cowbell”
    • Semua video menunjukkan masalah konsistensi yang cukup jelas ketika arah pandang diputar kembali ke area yang sebelumnya sudah ditampilkan