Stable Video 3D: sintesis tampilan baru berkualitas tinggi dan pembuatan 3D dari satu gambar
- Meluncurkan Stable Video 3D (SV3D), model generatif berbasis Stable Video Diffusion. Kualitas video dan konsistensi tampilan meningkat secara signifikan
- Mencakup dua varian: SV3D_u dan SV3D_p
- SV3D_u menghasilkan video orbit berdasarkan input satu gambar tanpa kondisi kamera
- SV3D_p menerima satu gambar dan tampilan orbit sekaligus, memperluas kemampuannya untuk menghasilkan video 3D mengikuti jalur kamera yang ditentukan
- Stable Video 3D dapat digunakan untuk tujuan komersial melalui membership Stability AI, dan untuk penggunaan nonkomersial, bobot model dapat diunduh di Hugging Face serta makalah penelitiannya dapat dilihat
Keunggulan Video Diffusion
- Dengan menerapkan model diffusion image-to-video Stable Video Diffusion sambil menambahkan kondisi jalur kamera, Stable Video 3D dapat menghasilkan video multi-tampilan suatu objek
- Penggunaan model Video Diffusion memberikan keunggulan utama dalam hal generalisasi hasil dan konsistensi tampilan dibandingkan model image diffusion yang digunakan pada Stable Zero123
- Selain itu, dengan memanfaatkan kemampuan kuat Stable Video 3D, diusulkan optimisasi 3D yang ditingkatkan untuk menghasilkan orbit arbitrer di sekitar objek
Pembuatan tampilan baru
- SV3D menghadirkan kemajuan penting terutama dalam sintesis tampilan baru (NVS)
- Sementara pendekatan yang ada sering menghadapi keterbatasan sudut pandang dan masalah ketidakkonsistenan output, SV3D menyediakan tampilan yang konsisten dari sudut mana pun yang diberikan
- Kemampuan ini tidak hanya meningkatkan kontrol pose, tetapi juga memastikan penampilan objek yang konsisten di berbagai tampilan, sehingga semakin menyempurnakan aspek penting dari pembuatan 3D yang realistis dan akurat
Pembuatan 3D
- SV3D memanfaatkan konsistensi multi-tampilan untuk mengoptimalkan representasi 3D neural radiance field (NeRF) dan mesh, sehingga meningkatkan kualitas mesh 3D yang dihasilkan langsung dari tampilan baru
- Untuk itu, dirancang mask score distillation sampling loss guna lebih meningkatkan kualitas 3D pada area yang tidak terlihat dari tampilan yang diprediksi
- Selain itu, SV3D menggunakan model pencahayaan terpisah yang dioptimalkan bersama bentuk dan tekstur 3D untuk mengurangi masalah baked lighting
1 komentar
Komentar Hacker News