Voyager – Model pembuatan video interaktif dengan dukungan rekonstruksi 3D real-time

(github.com/Tencent-Hunyuan)

1 poin oleh GN⁺ 2025-09-05 | 1 komentar | Bagikan ke WhatsApp

Voyager adalah framework difusi video baru yang menghasilkan urutan point cloud 3D yang konsisten berdasarkan gambar masukan dan jalur kamera yang ditentukan pengguna
Dengan menghasilkan informasi RGB dan kedalaman secara bersamaan, framework ini memungkinkan rekonstruksi 3D yang efisien dan langsung
Dengan memperkenalkan pipeline pembuatan dataset video skala besar, framework ini memperoleh data pelatihan yang beragam tanpa anotasi 3D manual
Pada benchmark WorldScore, framework ini menunjukkan kinerja unggul di berbagai aspek seperti konsistensi 3D dan penyelarasan konten dibandingkan sejumlah model sebelumnya
Mendukung inferensi paralel yang dioptimalkan pada single atau multi-GPU serta demo real-time, sehingga menunjukkan potensi untuk beragam aplikasi

Pengenalan proyek

HunyuanWorld-Voyager menghasilkan urutan video point cloud yang konsisten secara global (3D-Consistent) berdasarkan gambar masukan dan jalur pergerakan kamera yang ditentukan pengguna
Pengguna dapat mengatur jalur kamera secara bebas untuk membuat video scene 3D untuk eksplorasi dunia
Dengan menghasilkan video RGB dan kedalaman (Depth) yang disesuaikan secara bersamaan, framework ini memungkinkan rekonstruksi 3D yang cepat dan andal

Arsitektur

Voyager dirancang dengan dua komponen inti
- (1) Arsitektur difusi video yang konsisten secara global: menjamin konsistensi scene secara menyeluruh, sekaligus menghasilkan RGB dan kedalaman dalam keadaan selaras
- (2) Eksplorasi dunia jarak jauh: mendukung perluasan scene yang konsisten secara kontekstual melalui point culling, inferensi autoregresif, dan sampling video yang halus

Mesin data

Untuk pelatihan Voyager, dirancang secara terpisah mesin data yang dapat diskalakan berbasis pipeline rekonstruksi video
- Untuk video umum acak, estimasi pose kamera dan prediksi kedalaman berbasis meter diotomatisasi, sehingga memungkinkan pembuatan dataset pelatihan skala besar tanpa pekerjaan manual
- Menyediakan dataset yang terdiri dari lebih dari 100.000 klip video, termasuk rekaman dunia nyata dan data sintetis berbasis Unreal Engine

Fitur utama dan demo

Menyediakan demo pembuatan video interaktif berbasis kontrol jalur kamera
Point cloud 3D yang terhubung dengan video hasil generasi dapat direkonstruksi seketika
Mendemonstrasikan berbagai skenario penggunaan seperti pembuatan scene 3D dan estimasi video-depth dari satu gambar

Perbandingan performa

Dievaluasi pada benchmark WorldScore
- Voyager mencatat kinerja papan atas di berbagai kategori (kontrol kamera, kontrol objek, penyelarasan konten, konsistensi 3D, dll.)
- Secara khusus memperoleh skor tertinggi pada kategori kualitas subjektif (Subjective Quality) dan konsistensi 3D

Persyaratan sistem

Saat menghasilkan video resolusi 540p pada satu GPU 80GB, dibutuhkan minimal 60GB memori
Memberikan performa optimal pada sistem operasi Linux dan lingkungan CUDA 12.4 (disarankan 80GB atau lebih)

Kinerja inferensi paralel

Mendukung inferensi paralel multi-GPU berbasis xDiT
- Saat menggunakan 8 GPU H20, hasil untuk 49 frame 50 langkah (512x768) dihasilkan dalam 288 detik (akselerasi 6,69x dibandingkan satu GPU)

Antarmuka pengguna dan demo

Menyediakan demo real-time berbasis Gradio
- Dengan mengunggah gambar, memilih arah kamera, dan memasukkan teks prompt, pengguna dapat dengan mudah membuat video RGB-D

Rilis mesin data

Mesin pembuatan data berskala besar yang dapat diperluas untuk pelatihan video RGB-D juga disediakan sebagai open source

Kutipan dan referensi

Makalah arXiv: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
HunyuanWorld-Voyager dirancang dan diimplementasikan berdasarkan hasil riset yang memanfaatkan berbagai open source (VGGT, MoGE, Metric3D, dll.)

Nilai utama dan diferensiasi proyek

Kekuatan Voyager dibandingkan sebagian besar proyek image-to-video yang ada adalah kemampuannya menghasilkan video 3D yang konsisten secara global (berbasis point cloud) dari satu gambar melalui beragam jalur
Dengan menghasilkan informasi RGB dan kedalaman sekaligus, serta menyediakan mesin data otomatis skala besar, framework ini memiliki potensi besar untuk dimanfaatkan di berbagai industri seperti pembuatan konten 3D nyata, produksi lingkungan virtual, digital twin, dan aplikasi AIGC

1 komentar

GN⁺ 2025-09-05

Komentar Hacker News

Lisensi ini punya syarat yang cukup menarik

Bisa digunakan di seluruh dunia, tetapi tidak termasuk EU, Inggris, dan Korea
Saya kira yang akan dikecualikan itu AS/Kanada, jadi kombinasi ini cukup tak terduga
Lalu,
“Setidaknya sekali menerbitkan blog post pengenalan teknologi atau ulasan penggunaan, dan untuk layanan baru tampilkan label ‘Powered by Tencent Hunyuan’”
ada sebagai anjuran di dalam lisensi
Saya penasaran apa maknanya ketika anjuran seperti ini dimasukkan ke dalam lisensi
- Saya rasa itu karena EU AI Act
  Saya pernah mencoba langsung aplikasi pemeriksaan kepatuhan, dan bahkan setelah menandai usaha kecil/open source/riset/tanpa klien, tetap saja urusannya kusut dengan registrasi, pengungkapan, dan berbagai prosedur
  Draf awalnya membingungkan, lalu terlihat seperti sudah membaik, tetapi tetap masih tidak jelas dan birokratis
- Tempat seperti EU memang sedang aktif mendorong regulasi AI
  Tujuan library open source adalah menghindari tanggung jawab hukum
  Namun di wilayah seperti ini, potensi tanggung jawabnya rumit, jadi sepertinya mereka memilih arah melarang penggunaan itu sendiri
- Isi lisensinya menganjurkan “blog atau ulasan penggunaan, label ‘Powered by Tencent Hunyuan’”
  Rasanya ini seperti model promosi baru ala YouTuber yang bilang “tolong subscribe dan like”
- Pembatasan seperti ini pada praktiknya menurut saya adalah malicious compliance
  Sebenarnya dalam AI Act yang dibutuhkan hanya ringkasan penjelasan tentang data pelatihan, kesesuaian hak cipta, dan cara pengelolaan risiko
  Bukan sesuatu yang super rumit atau seperti ilmu roket
- Tapi saya tetap penasaran apakah di EU masih benar-benar bisa diunduh dan dipakai
  Saya pribadi tidak terlalu peduli lisensi, tetapi saya menduga untuk mengunduh sesuatu mungkin perlu daftar akun
Secara teknis sudah jelas tertulis bahwa inputnya hanya satu foto, tetapi saya penasaran apakah dengan memasukkan beberapa gambar dan melakukan sesuatu seperti fotogrametri, ekspresivitasnya bisa jadi lebih luas
- Saya juga punya pertanyaan yang sama
  Dalam kasus saya, ada kegunaan yang benar-benar berbeda
  Di beberapa area, data pengukuran kedalaman tidak bisa didapat dari perahu lidar, dan justru area yang menarik tidak punya data
  Yang ada hanya video terbang di sini (pada bagian saat permukaan air transparan)
  Dengan video dari sudut yang cukup, mungkin noise seperti pantulan permukaan air bisa dihilangkan, citra dasar diperkuat, lalu dicoba direkonstruksi dengan fotogrametri
  Poin pentingnya, untuk rekonstruksi yang akurat dibutuhkan data dari berbagai sudut
  Karena visibilitas bawah air berubah tergantung cahaya dan sudut kamera, sebelumnya perlu mengulang penerbangan di berbagai waktu
  Tapi saya ingin mencoba apakah model ini bisa menghasilkan rekonstruksi serupa dari satu gambar
- Sudah ada model fotogrametri yang melakukan hal seperti ini dengan input beberapa gambar
  Memperluas fungsinya agar menerima beberapa foto alih-alih satu foto tunggal juga sangat mungkin dicoba seseorang
  Tetapi dari nuansa pertanyaannya, memang terdengar seperti ini sekadar detail yang “tidak dimasukkan secara tak sengaja”
Menarik bahwa di tabel perbandingan performa, “skor tertinggi” disorot dengan warna merah
- Polanya sama persis dengan grafik pasar saham Tiongkok
  Di Tiongkok, merah berarti naik dan hijau berarti turun
- Seperti yang disebutkan, di Asia Timur merah memang bermakna positif
  Tapi yang lebih aneh bagi saya adalah warna ketiganya kuning
  Biasanya ini tidak mengikuti urutan spektrum visual
  (merah ~700nm, hijau ~550nm, kuning ~580nm)
  Menarik melihat urutan warna yang berbeda dari pengetahuan umum
- Makna warna adalah hasil budaya
  Di Tiongkok, merah punya makna berbeda dari di Barat
  Pilihan seperti itu sama sekali tidak aneh dalam konteks Tiongkok
- Dalam komunikasi Barat juga (film, fesyen) kita sering melihat warna simbolik semacam ini
  Merah sering muncul sebagai warna yang mengingatkan orang pada Tiongkok
- Ini fenomena yang datang dari perbedaan budaya, dan menurut saya cukup menarik
  Hanya saja karena tidak memengaruhi kehidupan sehari-hari saya, ya sekadar pengamatan sosial yang menarik
Pada 1995 saya mengikuti kuliah pemrosesan citra dari seorang profesor India
Saat itu saya bertanya bagaimana membuat gambar beresolusi rendah terlihat lebih baik, dan saya mendapat jawaban, “informasi tidak bisa diciptakan”
Tapi sekarang, 30 tahun kemudian, kita hidup di masa ketika video bisa dibuat dari satu foto
- Sebenarnya dari gambar bisa diekstrak jauh lebih banyak informasi daripada yang dikira
  Terutama pada video, informasinya jauh lebih banyak lagi
  Teknik seperti ini disebut ‘super-resolution’
  Kita memang tidak bisa menciptakan informasi dari ketiadaan, tetapi kita bisa mengisi bagian yang kurang secara alami dengan memanfaatkan pengetahuan tentang karakteristik subjeknya
- Kemajuan teknologinya besar, tetapi sebenarnya makna “informasi” dan “menciptakan” pada saat itu berbeda
  Misalnya, anak kecil yang menggambar badan berbentuk stik dengan krayon pada foto seseorang juga bisa disebut “menambahkan informasi”
  Tetapi itu bukan informasi dari kejadian nyata yang memang pernah ada
  Dan peneliti tidak bisa sembarang mengarang data, jurnalis tidak bisa sembarang mengarang kutipan; konteks tanggung jawabnya masing-masing berbeda
Apakah model ini benar-benar bisa melakukan rotasi 360 derajat penuh?
Kalau melihat video yang diunggah, tampaknya cuma sedikit bergeser atau paling banter hanya sedikit pan
- Secara teori mungkin
  Untuk tiap frame, model membuat depth image, dan tiap piksel menjadi titik 3D
  Dengan asumsi seluruh adegan 3D itu statis, semua frame bisa dikumpulkan dan ditumpuk menjadi point cloud 3D
  Setelah itu sudut pandang bisa diputar sesuka hati dengan renderer 3D klasik
  Tetapi jika pada tahap pembuatan video konsistensi informasi antarfame kurang baik (misalnya perubahan warna), point cloud itu juga pada akhirnya hanya “data yang salah secara konsisten”
  Akibatnya saat diputar, kombinasi warnanya tidak pas dan terlihat blur karena ter-blend
  Dan juga sulit memasukkan objek virtual dengan benar ke dalam scene yang dibuat
  Karena tidak ada informasi pencahayaan, dan pencampuran warnanya juga tidak cocok dengan lingkungannya
  Idenya keren, tetapi masih banyak masalah tambahan yang harus diselesaikan
Saya benar-benar tidak sabar ingin cepat mencoba fungsi seperti ini di VR
- Coba visionOS 26 mode “Immersive Photo”
  Foto di library iCloud otomatis diubah oleh model lokal (mungkin dengan pendekatan scene 3D Gaussian Splat)
  Bisa di-pan dan diputar, jadi terasa sepadan dengan harga Vision Pro
  Bahkan dengan foto lama yang saya ambil memakai Nikon D70, pemandangan dan orang di dalamnya tampak seperti nyata
- Jangan terlalu terburu-buru
  Sampai sekarang masih jauh dari tahap resolusi tinggi sungguhan 120fps, stereo yang stabil, dan latensi ultra-rendah
- Menurut saya kalau diterapkan dalam kondisi sekarang, ini malah bisa bikin mabuk berat
  field of view (fov) video-video ini terlalu berantakan
Saya penasaran model atau kombinasi apa yang saat ini paling bagus untuk konversi text-to-3D-asset (teks→aset 3D)
Akan lebih baik kalau berbasis open source
- Sekalian menambahkan, saya juga penasaran apakah text-to-sprite-sheet (teks→sprite sheet),
  atau teks+gambar tunggal→sprite sheet juga memungkinkan
Ini sebenarnya bukan open source, melainkan format “weights-available”
Tidak ada data pelatihan, dan jika open source berarti “bentuk yang paling cocok untuk dimodifikasi”, maka semestinya data juga harus ada
Kutipan sebagian lisensi:

“Jika MAU bulan sebelumnya mencapai 1 juta atau lebih, diperlukan lisensi sebelumnya,
tidak boleh digunakan untuk meningkatkan model AI lain”
Acceptable Use Policy juga membatasi dengan cukup rinci Lihat teks lisensi lengkap
- Pembatasan EU/UK/Korea kemungkinan karena wilayah-wilayah itu bisa mempersoalkan pelatihan data tanpa izin atau menuntut kompensasi finansial
- Saya setuju dengan klaim “ini bukan open source”
  Tapi “bentuk yang paling cocok untuk dimodifikasi” tidak harus berarti data (data pelatihan), melainkan memang bobotnya (weights)
  Data adalah cara untuk memodifikasi bobot
- Saya ingin menekankan bahwa fine-tuning jauh lebih murah
- Selain AI2, saya rasa pada praktiknya hampir semua model AI bukan open source sejati (hingga log pelatihan dan data dibuka)
  Belakangan ini open source pada dasarnya dipakai hampir sebagai sinonim dari “weights-available”
- “7. Tidak membuat dan menyebarkan informasi palsu secara jelas dengan tujuan mencelakai orang lain atau memanipulasi pemilu”
  “8. Tidak membuat aktivitas online palsu seperti ulasan palsu”
  → bukankah mereka sendiri melakukannya tetapi melarang orang lain?
  “15. Tidak digunakan dengan cara yang bertentangan dengan etika/moral sosial negara atau wilayah lain”
  dan seterusnya adalah pasal yang pada praktiknya membuat penggunaan di semua wilayah menjadi sulit
  Kebijakannya terlalu berlebihan
Yang menarik bagi saya adalah memasukkan foto Panoramax (alternatif open StreetView) lalu merekonstruksinya menjadi scene yang bisa dinavigasi dalam 3D
Boleh tanya kenapa kameranya tidak diputar 1080 derajat saja!!
Video-videonya <i>terlalu</i> pendek, bahkan 45 derajat pun tidak benar-benar berputar
Genie3 juga cuma sampai sekitar 90 derajat
Kita benar-benar harus memperhatikan bagian yang “tidak bisa” dilakukan model, dan dalam kasus ini artinya “tidak bisa berputar dengan benar”
Kalau tidak bisa lulus tes sederhana yaitu diletakkan di satu titik lalu diputar, saya jadi tidak mau lagi menyebutnya ‘world model’
Aduh, saya kesal

Voyager – Model pembuatan video interaktif dengan dukungan rekonstruksi 3D real-time

Pengenalan proyek

Arsitektur

Mesin data

Fitur utama dan demo

Perbandingan performa

Persyaratan sistem

Kinerja inferensi paralel

Antarmuka pengguna dan demo

Rilis mesin data

Kutipan dan referensi

Nilai utama dan diferensiasi proyek

Bacaan terkait

1 komentar

Komentar Hacker News