1 poin oleh GN⁺ 2025-09-05 | Belum ada komentar. | Bagikan ke WhatsApp
  • Voyager adalah framework difusi video baru yang menghasilkan urutan point cloud 3D yang konsisten berdasarkan gambar masukan dan jalur kamera yang ditentukan pengguna
  • Dengan menghasilkan informasi RGB dan kedalaman secara bersamaan, framework ini memungkinkan rekonstruksi 3D yang efisien dan langsung
  • Dengan memperkenalkan pipeline pembuatan dataset video skala besar, framework ini memperoleh data pelatihan yang beragam tanpa anotasi 3D manual
  • Pada benchmark WorldScore, framework ini menunjukkan kinerja unggul di berbagai aspek seperti konsistensi 3D dan penyelarasan konten dibandingkan sejumlah model sebelumnya
  • Mendukung inferensi paralel yang dioptimalkan pada single atau multi-GPU serta demo real-time, sehingga menunjukkan potensi untuk beragam aplikasi

Pengenalan proyek

  • HunyuanWorld-Voyager menghasilkan urutan video point cloud yang konsisten secara global (3D-Consistent) berdasarkan gambar masukan dan jalur pergerakan kamera yang ditentukan pengguna
  • Pengguna dapat mengatur jalur kamera secara bebas untuk membuat video scene 3D untuk eksplorasi dunia
  • Dengan menghasilkan video RGB dan kedalaman (Depth) yang disesuaikan secara bersamaan, framework ini memungkinkan rekonstruksi 3D yang cepat dan andal

Arsitektur

  • Voyager dirancang dengan dua komponen inti
    • (1) Arsitektur difusi video yang konsisten secara global: menjamin konsistensi scene secara menyeluruh, sekaligus menghasilkan RGB dan kedalaman dalam keadaan selaras
    • (2) Eksplorasi dunia jarak jauh: mendukung perluasan scene yang konsisten secara kontekstual melalui point culling, inferensi autoregresif, dan sampling video yang halus

Mesin data

  • Untuk pelatihan Voyager, dirancang secara terpisah mesin data yang dapat diskalakan berbasis pipeline rekonstruksi video
    • Untuk video umum acak, estimasi pose kamera dan prediksi kedalaman berbasis meter diotomatisasi, sehingga memungkinkan pembuatan dataset pelatihan skala besar tanpa pekerjaan manual
    • Menyediakan dataset yang terdiri dari lebih dari 100.000 klip video, termasuk rekaman dunia nyata dan data sintetis berbasis Unreal Engine

Fitur utama dan demo

  • Menyediakan demo pembuatan video interaktif berbasis kontrol jalur kamera
  • Point cloud 3D yang terhubung dengan video hasil generasi dapat direkonstruksi seketika
  • Mendemonstrasikan berbagai skenario penggunaan seperti pembuatan scene 3D dan estimasi video-depth dari satu gambar

Perbandingan performa

  • Dievaluasi pada benchmark WorldScore
    • Voyager mencatat kinerja papan atas di berbagai kategori (kontrol kamera, kontrol objek, penyelarasan konten, konsistensi 3D, dll.)
    • Secara khusus memperoleh skor tertinggi pada kategori kualitas subjektif (Subjective Quality) dan konsistensi 3D

Persyaratan sistem

  • Saat menghasilkan video resolusi 540p pada satu GPU 80GB, dibutuhkan minimal 60GB memori
  • Memberikan performa optimal pada sistem operasi Linux dan lingkungan CUDA 12.4 (disarankan 80GB atau lebih)

Kinerja inferensi paralel

  • Mendukung inferensi paralel multi-GPU berbasis xDiT
    • Saat menggunakan 8 GPU H20, hasil untuk 49 frame 50 langkah (512x768) dihasilkan dalam 288 detik (akselerasi 6,69x dibandingkan satu GPU)

Antarmuka pengguna dan demo

  • Menyediakan demo real-time berbasis Gradio
    • Dengan mengunggah gambar, memilih arah kamera, dan memasukkan teks prompt, pengguna dapat dengan mudah membuat video RGB-D

Rilis mesin data

  • Mesin pembuatan data berskala besar yang dapat diperluas untuk pelatihan video RGB-D juga disediakan sebagai open source

Kutipan dan referensi

  • Makalah arXiv: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
  • HunyuanWorld-Voyager dirancang dan diimplementasikan berdasarkan hasil riset yang memanfaatkan berbagai open source (VGGT, MoGE, Metric3D, dll.)

Nilai utama dan diferensiasi proyek

  • Kekuatan Voyager dibandingkan sebagian besar proyek image-to-video yang ada adalah kemampuannya menghasilkan video 3D yang konsisten secara global (berbasis point cloud) dari satu gambar melalui beragam jalur
  • Dengan menghasilkan informasi RGB dan kedalaman sekaligus, serta menyediakan mesin data otomatis skala besar, framework ini memiliki potensi besar untuk dimanfaatkan di berbagai industri seperti pembuatan konten 3D nyata, produksi lingkungan virtual, digital twin, dan aplikasi AIGC

Belum ada komentar.

Belum ada komentar.