2 poin oleh GN⁺ 2024-03-19 | 1 komentar | Bagikan ke WhatsApp

Stable Video 3D: sintesis tampilan baru berkualitas tinggi dan pembuatan 3D dari satu gambar

  • Meluncurkan Stable Video 3D (SV3D), model generatif berbasis Stable Video Diffusion. Kualitas video dan konsistensi tampilan meningkat secara signifikan
  • Mencakup dua varian: SV3D_u dan SV3D_p
    • SV3D_u menghasilkan video orbit berdasarkan input satu gambar tanpa kondisi kamera
    • SV3D_p menerima satu gambar dan tampilan orbit sekaligus, memperluas kemampuannya untuk menghasilkan video 3D mengikuti jalur kamera yang ditentukan
  • Stable Video 3D dapat digunakan untuk tujuan komersial melalui membership Stability AI, dan untuk penggunaan nonkomersial, bobot model dapat diunduh di Hugging Face serta makalah penelitiannya dapat dilihat

Keunggulan Video Diffusion

  • Dengan menerapkan model diffusion image-to-video Stable Video Diffusion sambil menambahkan kondisi jalur kamera, Stable Video 3D dapat menghasilkan video multi-tampilan suatu objek
  • Penggunaan model Video Diffusion memberikan keunggulan utama dalam hal generalisasi hasil dan konsistensi tampilan dibandingkan model image diffusion yang digunakan pada Stable Zero123
  • Selain itu, dengan memanfaatkan kemampuan kuat Stable Video 3D, diusulkan optimisasi 3D yang ditingkatkan untuk menghasilkan orbit arbitrer di sekitar objek

Pembuatan tampilan baru

  • SV3D menghadirkan kemajuan penting terutama dalam sintesis tampilan baru (NVS)
  • Sementara pendekatan yang ada sering menghadapi keterbatasan sudut pandang dan masalah ketidakkonsistenan output, SV3D menyediakan tampilan yang konsisten dari sudut mana pun yang diberikan
  • Kemampuan ini tidak hanya meningkatkan kontrol pose, tetapi juga memastikan penampilan objek yang konsisten di berbagai tampilan, sehingga semakin menyempurnakan aspek penting dari pembuatan 3D yang realistis dan akurat

Pembuatan 3D

  • SV3D memanfaatkan konsistensi multi-tampilan untuk mengoptimalkan representasi 3D neural radiance field (NeRF) dan mesh, sehingga meningkatkan kualitas mesh 3D yang dihasilkan langsung dari tampilan baru
  • Untuk itu, dirancang mask score distillation sampling loss guna lebih meningkatkan kualitas 3D pada area yang tidak terlihat dari tampilan yang diprediksi
  • Selain itu, SV3D menggunakan model pencahayaan terpisah yang dioptimalkan bersama bentuk dan tekstur 3D untuk mengurangi masalah baked lighting

1 komentar

 
GN⁺ 2024-03-19
Komentar Hacker News
  • Pengguna pertama mencoba model Stable Video 3D (SV3D) menggunakan kartu grafis 4090 (VRAM 24GB), tetapi mengalami crash karena kekurangan memori setelah berjalan lebih dari 1 menit. Setelah menyesuaikan skrip untuk mengurangi jumlah frame yang dihasilkan secara bersamaan, proses generasi berhasil; penggunaan VRAM mencapai maksimum 19,5GB, memakan daya 225 watt, dan membutuhkan waktu 1 menit 25 detik.

    Stable Video 3D(SV3D): model generatif yang menerima gambar diam sebagai input dan menghasilkan video orbit dari objek tersebut, berbasis Stable Video Diffusion.

  • Pengguna kedua penasaran apakah SV3D dapat menghasilkan model 3D yang sebenarnya, atau hanya membuat gambar tentang bagaimana objek akan terlihat dari sudut yang berbeda.
  • Pengguna ketiga berpikir bahwa jika animasi yang ditampilkan memang representatif, mesh yang dihasilkan mungkin cukup bagus untuk digunakan pada printer 3D, dan ia menantikan eksperimen terkait hal itu.
  • Pengguna keempat menanyakan persyaratan perangkat keras atau memori untuk dapat menjalankan SV3D.
  • Pengguna kelima penasaran apakah input memerlukan lebih dari satu gambar, apakah ada URL demo yang bisa dicoba, dan bertanya apakah "input gambar tunggal" berarti beberapa gambar.
  • Pengguna keenam menyebut semua contoh terlihat seperti mainan anak plastik, dan penasaran bagaimana model ini akan menangani objek lain seperti manusia, kain, bangunan, tanaman, gunung, dan komponen mesin.
  • Pengguna ketujuh menilai animasi demo tersebut sangat cerdas dan memuaskan.
  • Pengguna kedelapan berharap teknologi seperti ini bisa digunakan untuk desain arsitektur.
  • Komentar kesembilan dan kesepuluh masing-masing ditandai sebagai "[dead]" dan "[flagged]", sehingga isinya tidak dapat diketahui.