Voyager – Model pembuatan video interaktif dengan dukungan rekonstruksi 3D real-time
(github.com/Tencent-Hunyuan)- Voyager adalah framework difusi video baru yang menghasilkan urutan point cloud 3D yang konsisten berdasarkan gambar masukan dan jalur kamera yang ditentukan pengguna
- Dengan menghasilkan informasi RGB dan kedalaman secara bersamaan, framework ini memungkinkan rekonstruksi 3D yang efisien dan langsung
- Dengan memperkenalkan pipeline pembuatan dataset video skala besar, framework ini memperoleh data pelatihan yang beragam tanpa anotasi 3D manual
- Pada benchmark WorldScore, framework ini menunjukkan kinerja unggul di berbagai aspek seperti konsistensi 3D dan penyelarasan konten dibandingkan sejumlah model sebelumnya
- Mendukung inferensi paralel yang dioptimalkan pada single atau multi-GPU serta demo real-time, sehingga menunjukkan potensi untuk beragam aplikasi
Pengenalan proyek
- HunyuanWorld-Voyager menghasilkan urutan video point cloud yang konsisten secara global (3D-Consistent) berdasarkan gambar masukan dan jalur pergerakan kamera yang ditentukan pengguna
- Pengguna dapat mengatur jalur kamera secara bebas untuk membuat video scene 3D untuk eksplorasi dunia
- Dengan menghasilkan video RGB dan kedalaman (Depth) yang disesuaikan secara bersamaan, framework ini memungkinkan rekonstruksi 3D yang cepat dan andal
Arsitektur
- Voyager dirancang dengan dua komponen inti
- (1) Arsitektur difusi video yang konsisten secara global: menjamin konsistensi scene secara menyeluruh, sekaligus menghasilkan RGB dan kedalaman dalam keadaan selaras
- (2) Eksplorasi dunia jarak jauh: mendukung perluasan scene yang konsisten secara kontekstual melalui point culling, inferensi autoregresif, dan sampling video yang halus
Mesin data
- Untuk pelatihan Voyager, dirancang secara terpisah mesin data yang dapat diskalakan berbasis pipeline rekonstruksi video
- Untuk video umum acak, estimasi pose kamera dan prediksi kedalaman berbasis meter diotomatisasi, sehingga memungkinkan pembuatan dataset pelatihan skala besar tanpa pekerjaan manual
- Menyediakan dataset yang terdiri dari lebih dari 100.000 klip video, termasuk rekaman dunia nyata dan data sintetis berbasis Unreal Engine
Fitur utama dan demo
- Menyediakan demo pembuatan video interaktif berbasis kontrol jalur kamera
- Point cloud 3D yang terhubung dengan video hasil generasi dapat direkonstruksi seketika
- Mendemonstrasikan berbagai skenario penggunaan seperti pembuatan scene 3D dan estimasi video-depth dari satu gambar
Perbandingan performa
- Dievaluasi pada benchmark WorldScore
- Voyager mencatat kinerja papan atas di berbagai kategori (kontrol kamera, kontrol objek, penyelarasan konten, konsistensi 3D, dll.)
- Secara khusus memperoleh skor tertinggi pada kategori kualitas subjektif (Subjective Quality) dan konsistensi 3D
Persyaratan sistem
- Saat menghasilkan video resolusi 540p pada satu GPU 80GB, dibutuhkan minimal 60GB memori
- Memberikan performa optimal pada sistem operasi Linux dan lingkungan CUDA 12.4 (disarankan 80GB atau lebih)
Kinerja inferensi paralel
- Mendukung inferensi paralel multi-GPU berbasis xDiT
- Saat menggunakan 8 GPU H20, hasil untuk 49 frame 50 langkah (512x768) dihasilkan dalam 288 detik (akselerasi 6,69x dibandingkan satu GPU)
Antarmuka pengguna dan demo
- Menyediakan demo real-time berbasis Gradio
- Dengan mengunggah gambar, memilih arah kamera, dan memasukkan teks prompt, pengguna dapat dengan mudah membuat video RGB-D
Rilis mesin data
- Mesin pembuatan data berskala besar yang dapat diperluas untuk pelatihan video RGB-D juga disediakan sebagai open source
Kutipan dan referensi
- Makalah arXiv: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
- HunyuanWorld-Voyager dirancang dan diimplementasikan berdasarkan hasil riset yang memanfaatkan berbagai open source (VGGT, MoGE, Metric3D, dll.)
Nilai utama dan diferensiasi proyek
- Kekuatan Voyager dibandingkan sebagian besar proyek image-to-video yang ada adalah kemampuannya menghasilkan video 3D yang konsisten secara global (berbasis point cloud) dari satu gambar melalui beragam jalur
- Dengan menghasilkan informasi RGB dan kedalaman sekaligus, serta menyediakan mesin data otomatis skala besar, framework ini memiliki potensi besar untuk dimanfaatkan di berbagai industri seperti pembuatan konten 3D nyata, produksi lingkungan virtual, digital twin, dan aplikasi AIGC
1 komentar
Komentar Hacker News
Lisensi ini punya syarat yang cukup menarik
Saya rasa itu karena EU AI Act
Saya pernah mencoba langsung aplikasi pemeriksaan kepatuhan, dan bahkan setelah menandai usaha kecil/open source/riset/tanpa klien, tetap saja urusannya kusut dengan registrasi, pengungkapan, dan berbagai prosedur
Draf awalnya membingungkan, lalu terlihat seperti sudah membaik, tetapi tetap masih tidak jelas dan birokratis
Tempat seperti EU memang sedang aktif mendorong regulasi AI
Tujuan library open source adalah menghindari tanggung jawab hukum
Namun di wilayah seperti ini, potensi tanggung jawabnya rumit, jadi sepertinya mereka memilih arah melarang penggunaan itu sendiri
Isi lisensinya menganjurkan “blog atau ulasan penggunaan, label ‘Powered by Tencent Hunyuan’”
Rasanya ini seperti model promosi baru ala YouTuber yang bilang “tolong subscribe dan like”
Pembatasan seperti ini pada praktiknya menurut saya adalah malicious compliance
Sebenarnya dalam AI Act yang dibutuhkan hanya ringkasan penjelasan tentang data pelatihan, kesesuaian hak cipta, dan cara pengelolaan risiko
Bukan sesuatu yang super rumit atau seperti ilmu roket
Tapi saya tetap penasaran apakah di EU masih benar-benar bisa diunduh dan dipakai
Saya pribadi tidak terlalu peduli lisensi, tetapi saya menduga untuk mengunduh sesuatu mungkin perlu daftar akun
Secara teknis sudah jelas tertulis bahwa inputnya hanya satu foto, tetapi saya penasaran apakah dengan memasukkan beberapa gambar dan melakukan sesuatu seperti fotogrametri, ekspresivitasnya bisa jadi lebih luas
Saya juga punya pertanyaan yang sama
Dalam kasus saya, ada kegunaan yang benar-benar berbeda
Di beberapa area, data pengukuran kedalaman tidak bisa didapat dari perahu lidar, dan justru area yang menarik tidak punya data
Yang ada hanya video terbang di sini (pada bagian saat permukaan air transparan)
Dengan video dari sudut yang cukup, mungkin noise seperti pantulan permukaan air bisa dihilangkan, citra dasar diperkuat, lalu dicoba direkonstruksi dengan fotogrametri
Poin pentingnya, untuk rekonstruksi yang akurat dibutuhkan data dari berbagai sudut
Karena visibilitas bawah air berubah tergantung cahaya dan sudut kamera, sebelumnya perlu mengulang penerbangan di berbagai waktu
Tapi saya ingin mencoba apakah model ini bisa menghasilkan rekonstruksi serupa dari satu gambar
Sudah ada model fotogrametri yang melakukan hal seperti ini dengan input beberapa gambar
Memperluas fungsinya agar menerima beberapa foto alih-alih satu foto tunggal juga sangat mungkin dicoba seseorang
Tetapi dari nuansa pertanyaannya, memang terdengar seperti ini sekadar detail yang “tidak dimasukkan secara tak sengaja”
Menarik bahwa di tabel perbandingan performa, “skor tertinggi” disorot dengan warna merah
Polanya sama persis dengan grafik pasar saham Tiongkok
Di Tiongkok, merah berarti naik dan hijau berarti turun
Seperti yang disebutkan, di Asia Timur merah memang bermakna positif
Tapi yang lebih aneh bagi saya adalah warna ketiganya kuning
Biasanya ini tidak mengikuti urutan spektrum visual
(merah ~700nm, hijau ~550nm, kuning ~580nm)
Menarik melihat urutan warna yang berbeda dari pengetahuan umum
Makna warna adalah hasil budaya
Di Tiongkok, merah punya makna berbeda dari di Barat
Pilihan seperti itu sama sekali tidak aneh dalam konteks Tiongkok
Dalam komunikasi Barat juga (film, fesyen) kita sering melihat warna simbolik semacam ini
Merah sering muncul sebagai warna yang mengingatkan orang pada Tiongkok
Ini fenomena yang datang dari perbedaan budaya, dan menurut saya cukup menarik
Hanya saja karena tidak memengaruhi kehidupan sehari-hari saya, ya sekadar pengamatan sosial yang menarik
Pada 1995 saya mengikuti kuliah pemrosesan citra dari seorang profesor India
Saat itu saya bertanya bagaimana membuat gambar beresolusi rendah terlihat lebih baik, dan saya mendapat jawaban, “informasi tidak bisa diciptakan”
Tapi sekarang, 30 tahun kemudian, kita hidup di masa ketika video bisa dibuat dari satu foto
Sebenarnya dari gambar bisa diekstrak jauh lebih banyak informasi daripada yang dikira
Terutama pada video, informasinya jauh lebih banyak lagi
Teknik seperti ini disebut ‘super-resolution’
Kita memang tidak bisa menciptakan informasi dari ketiadaan, tetapi kita bisa mengisi bagian yang kurang secara alami dengan memanfaatkan pengetahuan tentang karakteristik subjeknya
Kemajuan teknologinya besar, tetapi sebenarnya makna “informasi” dan “menciptakan” pada saat itu berbeda
Misalnya, anak kecil yang menggambar badan berbentuk stik dengan krayon pada foto seseorang juga bisa disebut “menambahkan informasi”
Tetapi itu bukan informasi dari kejadian nyata yang memang pernah ada
Dan peneliti tidak bisa sembarang mengarang data, jurnalis tidak bisa sembarang mengarang kutipan; konteks tanggung jawabnya masing-masing berbeda
Apakah model ini benar-benar bisa melakukan rotasi 360 derajat penuh?
Kalau melihat video yang diunggah, tampaknya cuma sedikit bergeser atau paling banter hanya sedikit pan
Untuk tiap frame, model membuat depth image, dan tiap piksel menjadi titik 3D
Dengan asumsi seluruh adegan 3D itu statis, semua frame bisa dikumpulkan dan ditumpuk menjadi point cloud 3D
Setelah itu sudut pandang bisa diputar sesuka hati dengan renderer 3D klasik
Tetapi jika pada tahap pembuatan video konsistensi informasi antarfame kurang baik (misalnya perubahan warna), point cloud itu juga pada akhirnya hanya “data yang salah secara konsisten”
Akibatnya saat diputar, kombinasi warnanya tidak pas dan terlihat blur karena ter-blend
Dan juga sulit memasukkan objek virtual dengan benar ke dalam scene yang dibuat
Karena tidak ada informasi pencahayaan, dan pencampuran warnanya juga tidak cocok dengan lingkungannya
Idenya keren, tetapi masih banyak masalah tambahan yang harus diselesaikan
Saya benar-benar tidak sabar ingin cepat mencoba fungsi seperti ini di VR
Coba visionOS 26 mode “Immersive Photo”
Foto di library iCloud otomatis diubah oleh model lokal (mungkin dengan pendekatan scene 3D Gaussian Splat)
Bisa di-pan dan diputar, jadi terasa sepadan dengan harga Vision Pro
Bahkan dengan foto lama yang saya ambil memakai Nikon D70, pemandangan dan orang di dalamnya tampak seperti nyata
Jangan terlalu terburu-buru
Sampai sekarang masih jauh dari tahap resolusi tinggi sungguhan 120fps, stereo yang stabil, dan latensi ultra-rendah
Menurut saya kalau diterapkan dalam kondisi sekarang, ini malah bisa bikin mabuk berat
field of view (fov) video-video ini terlalu berantakan
Saya penasaran model atau kombinasi apa yang saat ini paling bagus untuk konversi text-to-3D-asset (teks→aset 3D)
Akan lebih baik kalau berbasis open source
atau teks+gambar tunggal→sprite sheet juga memungkinkan
Ini sebenarnya bukan open source, melainkan format “weights-available”
Tidak ada data pelatihan, dan jika open source berarti “bentuk yang paling cocok untuk dimodifikasi”, maka semestinya data juga harus ada
Kutipan sebagian lisensi:
Pembatasan EU/UK/Korea kemungkinan karena wilayah-wilayah itu bisa mempersoalkan pelatihan data tanpa izin atau menuntut kompensasi finansial
Saya setuju dengan klaim “ini bukan open source”
Tapi “bentuk yang paling cocok untuk dimodifikasi” tidak harus berarti data (data pelatihan), melainkan memang bobotnya (weights)
Data adalah cara untuk memodifikasi bobot
Saya ingin menekankan bahwa fine-tuning jauh lebih murah
Selain AI2, saya rasa pada praktiknya hampir semua model AI bukan open source sejati (hingga log pelatihan dan data dibuka)
Belakangan ini open source pada dasarnya dipakai hampir sebagai sinonim dari “weights-available”
“7. Tidak membuat dan menyebarkan informasi palsu secara jelas dengan tujuan mencelakai orang lain atau memanipulasi pemilu”
“8. Tidak membuat aktivitas online palsu seperti ulasan palsu”
→ bukankah mereka sendiri melakukannya tetapi melarang orang lain?
“15. Tidak digunakan dengan cara yang bertentangan dengan etika/moral sosial negara atau wilayah lain”
dan seterusnya adalah pasal yang pada praktiknya membuat penggunaan di semua wilayah menjadi sulit
Kebijakannya terlalu berlebihan
Yang menarik bagi saya adalah memasukkan foto Panoramax (alternatif open StreetView) lalu merekonstruksinya menjadi scene yang bisa dinavigasi dalam 3D
Boleh tanya kenapa kameranya tidak diputar 1080 derajat saja!!
Video-videonya <i>terlalu</i> pendek, bahkan 45 derajat pun tidak benar-benar berputar
Genie3 juga cuma sampai sekitar 90 derajat
Kita benar-benar harus memperhatikan bagian yang “tidak bisa” dilakukan model, dan dalam kasus ini artinya “tidak bisa berputar dengan benar”
Kalau tidak bisa lulus tes sederhana yaitu diletakkan di satu titik lalu diputar, saya jadi tidak mau lagi menyebutnya ‘world model’
Aduh, saya kesal