Bolt3D - Model Pembuatan Scene 3D Supercepat

(szymanowiczs.github.io)

6 poin oleh GN⁺ 2025-03-22 | Belum ada komentar. | Bagikan ke WhatsApp

Model difusi laten (latent diffusion model) untuk pembuatan scene 3D supercepat
Dapat menghasilkan scene 3D beresolusi tinggi dalam waktu kurang dari 7 detik dari satu atau lebih gambar masukan
Dilatih dengan membangun dataset konsistensi multi-view berskala besar, dan hingga 300 kali lebih cepat dibanding model pembangkitan 3D sebelumnya
Model sebelumnya memerlukan proses optimasi, tetapi Bolt3D memungkinkan pembuatan scene secara instan dengan pendekatan feed-forward

Batasan dan masalah pada model sebelumnya

Model pembangkitan 2D yang ada dapat membuat gambar berkualitas tinggi, tetapi pembuatan scene 3D tetap sulit
Model 3D yang ada memiliki masalah berikut:
- Sulit menangani struktur data 3D yang kompleks
- Kurangnya data scene 3D nyata berkualitas tinggi
- Biaya komputasi tinggi dan kecepatan pemrosesan lambat

Menggunakan metode representasi 3D Gaussian:
- 3D Gaussian terdiri dari warna, posisi, opasitas, dan matriks kovariansi
- Rendering 3D Gaussian dilakukan melalui gambar yang selaras piksel bernama Splatter Image
- Dapat melengkapi dan membangkitkan area yang tidak terlihat

Mengestimasi scene 3D dari gambar masukan melalui model difusi laten (latent diffusion model)
Mengodekan informasi geometris ke ruang laten melalui Geometry VAE
Gaussian Head memprediksi dan mengoreksi atribut detail 3D Gaussian (opasitas, warna, dan lain-lain)
Melakukan rendering instan untuk scene 3D beresolusi tinggi

Model difusi laten mengadopsi struktur yang dikembangkan dari model pembangkitan gambar 2D
Geometry VAE mengodekan point map 3D dan pose kamera
Gaussian Head melengkapi atribut detail dari scene 3D yang dihasilkan

Membangun dataset multi-view berskala besar:
- Mencakup CO3D, MVImg, RealEstate10K, DL3DV-7K
- Terdiri dari sekitar 300 ribu scene multi-view
- Menggunakan teknik MASt3R untuk memperoleh data geometris yang akurat
Proses pelatihan:
1. Geometry VAE: dilatih pada resolusi 256×256 → 512×512
2. Gaussian Head: koreksi pembangkitan Splatter Image
3. Latent Diffusion Model: fine-tuning berbasis model CAT3D

Bolt3D menunjukkan performa lebih baik daripada model Flash3D dan DepthSplat yang ada
Dalam perbandingan dengan Flash3D, Bolt3D mencatat performa sekitar 3,6 poin lebih tinggi pada metrik PSNR, serta meningkat pada metrik SSIM dan LPIPS
Dalam perbandingan dengan model DepthSplat, Bolt3D unggul pada semua metrik performa
Peningkatan performa paling besar terutama terlihat saat hanya ada satu gambar masukan

Dibanding model berbasis optimasi seperti CAT3D, Bolt3D mencatat performa yang serupa atau lebih baik sekaligus 300 kali lebih cepat
CAT3D membutuhkan sekitar 5 menit untuk menghasilkan sebuah scene, sedangkan Bolt3D dapat menyelesaikan tugas yang sama hanya dalam 6,25 detik
Dari sisi metrik performa, CAT3D mencatat skor PSNR yang sedikit lebih tinggi daripada Bolt3D, tetapi dari sisi kecepatan pemrosesan Bolt3D menunjukkan performa yang jauh lebih unggul

Menggunakan VAE khusus informasi geometris → akurasi meningkat dibanding VAE gambar umum
Penerapan penskalaan nonlinier dan depth mapping → meningkatkan performa model

Integrasi dan koreksi informasi multi-view
Penerapan Cross-Attention → memungkinkan pelengkapan dan pembangkitan area yang tidak terlihat

Bolt3D memungkinkan pembuatan scene 3D berkecepatan tinggi melalui pembelajaran informasi geometris dan pendekatan feed-forward
Baik performa maupun kecepatan meningkat dibanding model sebelumnya
Memungkinkan pembuatan scene 3D berkualitas tinggi secara instan di berbagai bidang aplikasi:
- Pengembangan game
- Virtual reality (VR) dan augmented reality (AR)
- Visualisasi arsitektur dan desain
Dengan kecepatan pemrosesan 300 kali lebih tinggi, potensi komersialisasi dan skalabilitasnya besar

Dapat menghasilkan scene 3D dalam kurang dari 7 detik
Performa 300 kali lebih cepat dibanding model sebelumnya
Menjamin detail beresolusi tinggi dan konsistensi
Performa tinggi pada single-view maupun multi-view
Mampu melakukan pelengkapan generatif yang alami bahkan pada scene yang kompleks dan belum lengkap