1 poin oleh GN⁺ 2025-09-05 | 1 komentar | Bagikan ke WhatsApp
  • Voyager adalah framework difusi video baru yang menghasilkan urutan point cloud 3D yang konsisten berdasarkan gambar masukan dan jalur kamera yang ditentukan pengguna
  • Dengan menghasilkan informasi RGB dan kedalaman secara bersamaan, framework ini memungkinkan rekonstruksi 3D yang efisien dan langsung
  • Dengan memperkenalkan pipeline pembuatan dataset video skala besar, framework ini memperoleh data pelatihan yang beragam tanpa anotasi 3D manual
  • Pada benchmark WorldScore, framework ini menunjukkan kinerja unggul di berbagai aspek seperti konsistensi 3D dan penyelarasan konten dibandingkan sejumlah model sebelumnya
  • Mendukung inferensi paralel yang dioptimalkan pada single atau multi-GPU serta demo real-time, sehingga menunjukkan potensi untuk beragam aplikasi

Pengenalan proyek

  • HunyuanWorld-Voyager menghasilkan urutan video point cloud yang konsisten secara global (3D-Consistent) berdasarkan gambar masukan dan jalur pergerakan kamera yang ditentukan pengguna
  • Pengguna dapat mengatur jalur kamera secara bebas untuk membuat video scene 3D untuk eksplorasi dunia
  • Dengan menghasilkan video RGB dan kedalaman (Depth) yang disesuaikan secara bersamaan, framework ini memungkinkan rekonstruksi 3D yang cepat dan andal

Arsitektur

  • Voyager dirancang dengan dua komponen inti
    • (1) Arsitektur difusi video yang konsisten secara global: menjamin konsistensi scene secara menyeluruh, sekaligus menghasilkan RGB dan kedalaman dalam keadaan selaras
    • (2) Eksplorasi dunia jarak jauh: mendukung perluasan scene yang konsisten secara kontekstual melalui point culling, inferensi autoregresif, dan sampling video yang halus

Mesin data

  • Untuk pelatihan Voyager, dirancang secara terpisah mesin data yang dapat diskalakan berbasis pipeline rekonstruksi video
    • Untuk video umum acak, estimasi pose kamera dan prediksi kedalaman berbasis meter diotomatisasi, sehingga memungkinkan pembuatan dataset pelatihan skala besar tanpa pekerjaan manual
    • Menyediakan dataset yang terdiri dari lebih dari 100.000 klip video, termasuk rekaman dunia nyata dan data sintetis berbasis Unreal Engine

Fitur utama dan demo

  • Menyediakan demo pembuatan video interaktif berbasis kontrol jalur kamera
  • Point cloud 3D yang terhubung dengan video hasil generasi dapat direkonstruksi seketika
  • Mendemonstrasikan berbagai skenario penggunaan seperti pembuatan scene 3D dan estimasi video-depth dari satu gambar

Perbandingan performa

  • Dievaluasi pada benchmark WorldScore
    • Voyager mencatat kinerja papan atas di berbagai kategori (kontrol kamera, kontrol objek, penyelarasan konten, konsistensi 3D, dll.)
    • Secara khusus memperoleh skor tertinggi pada kategori kualitas subjektif (Subjective Quality) dan konsistensi 3D

Persyaratan sistem

  • Saat menghasilkan video resolusi 540p pada satu GPU 80GB, dibutuhkan minimal 60GB memori
  • Memberikan performa optimal pada sistem operasi Linux dan lingkungan CUDA 12.4 (disarankan 80GB atau lebih)

Kinerja inferensi paralel

  • Mendukung inferensi paralel multi-GPU berbasis xDiT
    • Saat menggunakan 8 GPU H20, hasil untuk 49 frame 50 langkah (512x768) dihasilkan dalam 288 detik (akselerasi 6,69x dibandingkan satu GPU)

Antarmuka pengguna dan demo

  • Menyediakan demo real-time berbasis Gradio
    • Dengan mengunggah gambar, memilih arah kamera, dan memasukkan teks prompt, pengguna dapat dengan mudah membuat video RGB-D

Rilis mesin data

  • Mesin pembuatan data berskala besar yang dapat diperluas untuk pelatihan video RGB-D juga disediakan sebagai open source

Kutipan dan referensi

  • Makalah arXiv: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
  • HunyuanWorld-Voyager dirancang dan diimplementasikan berdasarkan hasil riset yang memanfaatkan berbagai open source (VGGT, MoGE, Metric3D, dll.)

Nilai utama dan diferensiasi proyek

  • Kekuatan Voyager dibandingkan sebagian besar proyek image-to-video yang ada adalah kemampuannya menghasilkan video 3D yang konsisten secara global (berbasis point cloud) dari satu gambar melalui beragam jalur
  • Dengan menghasilkan informasi RGB dan kedalaman sekaligus, serta menyediakan mesin data otomatis skala besar, framework ini memiliki potensi besar untuk dimanfaatkan di berbagai industri seperti pembuatan konten 3D nyata, produksi lingkungan virtual, digital twin, dan aplikasi AIGC

1 komentar

 
GN⁺ 2025-09-05
Komentar Hacker News
  • Lisensi ini punya syarat yang cukup menarik

    Bisa digunakan di seluruh dunia, tetapi tidak termasuk EU, Inggris, dan Korea
    Saya kira yang akan dikecualikan itu AS/Kanada, jadi kombinasi ini cukup tak terduga
    Lalu,
    “Setidaknya sekali menerbitkan blog post pengenalan teknologi atau ulasan penggunaan, dan untuk layanan baru tampilkan label ‘Powered by Tencent Hunyuan’”
    ada sebagai anjuran di dalam lisensi
    Saya penasaran apa maknanya ketika anjuran seperti ini dimasukkan ke dalam lisensi

    • Saya rasa itu karena EU AI Act
      Saya pernah mencoba langsung aplikasi pemeriksaan kepatuhan, dan bahkan setelah menandai usaha kecil/open source/riset/tanpa klien, tetap saja urusannya kusut dengan registrasi, pengungkapan, dan berbagai prosedur
      Draf awalnya membingungkan, lalu terlihat seperti sudah membaik, tetapi tetap masih tidak jelas dan birokratis

    • Tempat seperti EU memang sedang aktif mendorong regulasi AI
      Tujuan library open source adalah menghindari tanggung jawab hukum
      Namun di wilayah seperti ini, potensi tanggung jawabnya rumit, jadi sepertinya mereka memilih arah melarang penggunaan itu sendiri

    • Isi lisensinya menganjurkan “blog atau ulasan penggunaan, label ‘Powered by Tencent Hunyuan’”
      Rasanya ini seperti model promosi baru ala YouTuber yang bilang “tolong subscribe dan like”

    • Pembatasan seperti ini pada praktiknya menurut saya adalah malicious compliance
      Sebenarnya dalam AI Act yang dibutuhkan hanya ringkasan penjelasan tentang data pelatihan, kesesuaian hak cipta, dan cara pengelolaan risiko
      Bukan sesuatu yang super rumit atau seperti ilmu roket

    • Tapi saya tetap penasaran apakah di EU masih benar-benar bisa diunduh dan dipakai
      Saya pribadi tidak terlalu peduli lisensi, tetapi saya menduga untuk mengunduh sesuatu mungkin perlu daftar akun

  • Secara teknis sudah jelas tertulis bahwa inputnya hanya satu foto, tetapi saya penasaran apakah dengan memasukkan beberapa gambar dan melakukan sesuatu seperti fotogrametri, ekspresivitasnya bisa jadi lebih luas

    • Saya juga punya pertanyaan yang sama
      Dalam kasus saya, ada kegunaan yang benar-benar berbeda
      Di beberapa area, data pengukuran kedalaman tidak bisa didapat dari perahu lidar, dan justru area yang menarik tidak punya data
      Yang ada hanya video terbang di sini (pada bagian saat permukaan air transparan)
      Dengan video dari sudut yang cukup, mungkin noise seperti pantulan permukaan air bisa dihilangkan, citra dasar diperkuat, lalu dicoba direkonstruksi dengan fotogrametri
      Poin pentingnya, untuk rekonstruksi yang akurat dibutuhkan data dari berbagai sudut
      Karena visibilitas bawah air berubah tergantung cahaya dan sudut kamera, sebelumnya perlu mengulang penerbangan di berbagai waktu
      Tapi saya ingin mencoba apakah model ini bisa menghasilkan rekonstruksi serupa dari satu gambar

    • Sudah ada model fotogrametri yang melakukan hal seperti ini dengan input beberapa gambar
      Memperluas fungsinya agar menerima beberapa foto alih-alih satu foto tunggal juga sangat mungkin dicoba seseorang
      Tetapi dari nuansa pertanyaannya, memang terdengar seperti ini sekadar detail yang “tidak dimasukkan secara tak sengaja”

  • Menarik bahwa di tabel perbandingan performa, “skor tertinggi” disorot dengan warna merah

    • Polanya sama persis dengan grafik pasar saham Tiongkok
      Di Tiongkok, merah berarti naik dan hijau berarti turun

    • Seperti yang disebutkan, di Asia Timur merah memang bermakna positif
      Tapi yang lebih aneh bagi saya adalah warna ketiganya kuning
      Biasanya ini tidak mengikuti urutan spektrum visual
      (merah ~700nm, hijau ~550nm, kuning ~580nm)
      Menarik melihat urutan warna yang berbeda dari pengetahuan umum

    • Makna warna adalah hasil budaya
      Di Tiongkok, merah punya makna berbeda dari di Barat
      Pilihan seperti itu sama sekali tidak aneh dalam konteks Tiongkok

    • Dalam komunikasi Barat juga (film, fesyen) kita sering melihat warna simbolik semacam ini
      Merah sering muncul sebagai warna yang mengingatkan orang pada Tiongkok

    • Ini fenomena yang datang dari perbedaan budaya, dan menurut saya cukup menarik
      Hanya saja karena tidak memengaruhi kehidupan sehari-hari saya, ya sekadar pengamatan sosial yang menarik

  • Pada 1995 saya mengikuti kuliah pemrosesan citra dari seorang profesor India
    Saat itu saya bertanya bagaimana membuat gambar beresolusi rendah terlihat lebih baik, dan saya mendapat jawaban, “informasi tidak bisa diciptakan”
    Tapi sekarang, 30 tahun kemudian, kita hidup di masa ketika video bisa dibuat dari satu foto

    • Sebenarnya dari gambar bisa diekstrak jauh lebih banyak informasi daripada yang dikira
      Terutama pada video, informasinya jauh lebih banyak lagi
      Teknik seperti ini disebut ‘super-resolution’
      Kita memang tidak bisa menciptakan informasi dari ketiadaan, tetapi kita bisa mengisi bagian yang kurang secara alami dengan memanfaatkan pengetahuan tentang karakteristik subjeknya

    • Kemajuan teknologinya besar, tetapi sebenarnya makna “informasi” dan “menciptakan” pada saat itu berbeda
      Misalnya, anak kecil yang menggambar badan berbentuk stik dengan krayon pada foto seseorang juga bisa disebut “menambahkan informasi”
      Tetapi itu bukan informasi dari kejadian nyata yang memang pernah ada
      Dan peneliti tidak bisa sembarang mengarang data, jurnalis tidak bisa sembarang mengarang kutipan; konteks tanggung jawabnya masing-masing berbeda

  • Apakah model ini benar-benar bisa melakukan rotasi 360 derajat penuh?
    Kalau melihat video yang diunggah, tampaknya cuma sedikit bergeser atau paling banter hanya sedikit pan

    • Secara teori mungkin
      Untuk tiap frame, model membuat depth image, dan tiap piksel menjadi titik 3D
      Dengan asumsi seluruh adegan 3D itu statis, semua frame bisa dikumpulkan dan ditumpuk menjadi point cloud 3D
      Setelah itu sudut pandang bisa diputar sesuka hati dengan renderer 3D klasik
      Tetapi jika pada tahap pembuatan video konsistensi informasi antarfame kurang baik (misalnya perubahan warna), point cloud itu juga pada akhirnya hanya “data yang salah secara konsisten”
      Akibatnya saat diputar, kombinasi warnanya tidak pas dan terlihat blur karena ter-blend
      Dan juga sulit memasukkan objek virtual dengan benar ke dalam scene yang dibuat
      Karena tidak ada informasi pencahayaan, dan pencampuran warnanya juga tidak cocok dengan lingkungannya
      Idenya keren, tetapi masih banyak masalah tambahan yang harus diselesaikan
  • Saya benar-benar tidak sabar ingin cepat mencoba fungsi seperti ini di VR

    • Coba visionOS 26 mode “Immersive Photo”
      Foto di library iCloud otomatis diubah oleh model lokal (mungkin dengan pendekatan scene 3D Gaussian Splat)
      Bisa di-pan dan diputar, jadi terasa sepadan dengan harga Vision Pro
      Bahkan dengan foto lama yang saya ambil memakai Nikon D70, pemandangan dan orang di dalamnya tampak seperti nyata

    • Jangan terlalu terburu-buru
      Sampai sekarang masih jauh dari tahap resolusi tinggi sungguhan 120fps, stereo yang stabil, dan latensi ultra-rendah

    • Menurut saya kalau diterapkan dalam kondisi sekarang, ini malah bisa bikin mabuk berat
      field of view (fov) video-video ini terlalu berantakan

  • Saya penasaran model atau kombinasi apa yang saat ini paling bagus untuk konversi text-to-3D-asset (teks→aset 3D)
    Akan lebih baik kalau berbasis open source

    • Sekalian menambahkan, saya juga penasaran apakah text-to-sprite-sheet (teks→sprite sheet),
      atau teks+gambar tunggal→sprite sheet juga memungkinkan
  • Ini sebenarnya bukan open source, melainkan format “weights-available”
    Tidak ada data pelatihan, dan jika open source berarti “bentuk yang paling cocok untuk dimodifikasi”, maka semestinya data juga harus ada
    Kutipan sebagian lisensi:

    “Jika MAU bulan sebelumnya mencapai 1 juta atau lebih, diperlukan lisensi sebelumnya,
    tidak boleh digunakan untuk meningkatkan model AI lain”
    Acceptable Use Policy juga membatasi dengan cukup rinci Lihat teks lisensi lengkap

    • Pembatasan EU/UK/Korea kemungkinan karena wilayah-wilayah itu bisa mempersoalkan pelatihan data tanpa izin atau menuntut kompensasi finansial

    • Saya setuju dengan klaim “ini bukan open source”
      Tapi “bentuk yang paling cocok untuk dimodifikasi” tidak harus berarti data (data pelatihan), melainkan memang bobotnya (weights)
      Data adalah cara untuk memodifikasi bobot

    • Saya ingin menekankan bahwa fine-tuning jauh lebih murah

    • Selain AI2, saya rasa pada praktiknya hampir semua model AI bukan open source sejati (hingga log pelatihan dan data dibuka)
      Belakangan ini open source pada dasarnya dipakai hampir sebagai sinonim dari “weights-available”

    • “7. Tidak membuat dan menyebarkan informasi palsu secara jelas dengan tujuan mencelakai orang lain atau memanipulasi pemilu”
      “8. Tidak membuat aktivitas online palsu seperti ulasan palsu”
      → bukankah mereka sendiri melakukannya tetapi melarang orang lain?
      “15. Tidak digunakan dengan cara yang bertentangan dengan etika/moral sosial negara atau wilayah lain”
      dan seterusnya adalah pasal yang pada praktiknya membuat penggunaan di semua wilayah menjadi sulit
      Kebijakannya terlalu berlebihan

  • Yang menarik bagi saya adalah memasukkan foto Panoramax (alternatif open StreetView) lalu merekonstruksinya menjadi scene yang bisa dinavigasi dalam 3D

  • Boleh tanya kenapa kameranya tidak diputar 1080 derajat saja!!
    Video-videonya <i>terlalu</i> pendek, bahkan 45 derajat pun tidak benar-benar berputar
    Genie3 juga cuma sampai sekitar 90 derajat
    Kita benar-benar harus memperhatikan bagian yang “tidak bisa” dilakukan model, dan dalam kasus ini artinya “tidak bisa berputar dengan benar”
    Kalau tidak bisa lulus tes sederhana yaitu diletakkan di satu titik lalu diputar, saya jadi tidak mau lagi menyebutnya ‘world model’
    Aduh, saya kesal