- Model difusi laten (latent diffusion model) untuk pembuatan scene 3D supercepat
- Dapat menghasilkan scene 3D beresolusi tinggi dalam waktu kurang dari 7 detik dari satu atau lebih gambar masukan
- Dilatih dengan membangun dataset konsistensi multi-view berskala besar, dan hingga 300 kali lebih cepat dibanding model pembangkitan 3D sebelumnya
- Model sebelumnya memerlukan proses optimasi, tetapi Bolt3D memungkinkan pembuatan scene secara instan dengan pendekatan feed-forward
Batasan dan masalah pada model sebelumnya
- Model pembangkitan 2D yang ada dapat membuat gambar berkualitas tinggi, tetapi pembuatan scene 3D tetap sulit
- Model 3D yang ada memiliki masalah berikut:
- Sulit menangani struktur data 3D yang kompleks
- Kurangnya data scene 3D nyata berkualitas tinggi
- Biaya komputasi tinggi dan kecepatan pemrosesan lambat
Teknik dan struktur utama Bolt3D
Metode representasi 3D
- Menggunakan metode representasi 3D Gaussian:
- 3D Gaussian terdiri dari warna, posisi, opasitas, dan matriks kovariansi
- Rendering 3D Gaussian dilakukan melalui gambar yang selaras piksel bernama Splatter Image
- Dapat melengkapi dan membangkitkan area yang tidak terlihat
Proses pembangkitan Bolt3D
- Mengestimasi scene 3D dari gambar masukan melalui model difusi laten (latent diffusion model)
- Mengodekan informasi geometris ke ruang laten melalui Geometry VAE
- Gaussian Head memprediksi dan mengoreksi atribut detail 3D Gaussian (opasitas, warna, dan lain-lain)
- Melakukan rendering instan untuk scene 3D beresolusi tinggi
Arsitektur model
- Model difusi laten mengadopsi struktur yang dikembangkan dari model pembangkitan gambar 2D
- Geometry VAE mengodekan point map 3D dan pose kamera
- Gaussian Head melengkapi atribut detail dari scene 3D yang dihasilkan
Dataset dan pelatihan
- Membangun dataset multi-view berskala besar:
- Mencakup CO3D, MVImg, RealEstate10K, DL3DV-7K
- Terdiri dari sekitar 300 ribu scene multi-view
- Menggunakan teknik MASt3R untuk memperoleh data geometris yang akurat
- Proses pelatihan:
- Geometry VAE: dilatih pada resolusi 256×256 → 512×512
- Gaussian Head: koreksi pembangkitan Splatter Image
- Latent Diffusion Model: fine-tuning berbasis model CAT3D
Hasil eksperimen dan perbandingan performa
Perbandingan dengan model sebelumnya
- Bolt3D menunjukkan performa lebih baik daripada model Flash3D dan DepthSplat yang ada
- Dalam perbandingan dengan Flash3D, Bolt3D mencatat performa sekitar 3,6 poin lebih tinggi pada metrik PSNR, serta meningkat pada metrik SSIM dan LPIPS
- Dalam perbandingan dengan model DepthSplat, Bolt3D unggul pada semua metrik performa
- Peningkatan performa paling besar terutama terlihat saat hanya ada satu gambar masukan
Perbandingan dengan model berbasis optimasi
- Dibanding model berbasis optimasi seperti CAT3D, Bolt3D mencatat performa yang serupa atau lebih baik sekaligus 300 kali lebih cepat
- CAT3D membutuhkan sekitar 5 menit untuk menghasilkan sebuah scene, sedangkan Bolt3D dapat menyelesaikan tugas yang sama hanya dalam 6,25 detik
- Dari sisi metrik performa, CAT3D mencatat skor PSNR yang sedikit lebih tinggi daripada Bolt3D, tetapi dari sisi kecepatan pemrosesan Bolt3D menunjukkan performa yang jauh lebih unggul
Perbaikan struktur model dan arsitektur
Peningkatan Geometry VAE
- Menggunakan VAE khusus informasi geometris → akurasi meningkat dibanding VAE gambar umum
- Penerapan penskalaan nonlinier dan depth mapping → meningkatkan performa model
Peningkatan Gaussian Head
- Integrasi dan koreksi informasi multi-view
- Penerapan Cross-Attention → memungkinkan pelengkapan dan pembangkitan area yang tidak terlihat
Kesimpulan dan implikasi
- Bolt3D memungkinkan pembuatan scene 3D berkecepatan tinggi melalui pembelajaran informasi geometris dan pendekatan feed-forward
- Baik performa maupun kecepatan meningkat dibanding model sebelumnya
- Memungkinkan pembuatan scene 3D berkualitas tinggi secara instan di berbagai bidang aplikasi:
- Pengembangan game
- Virtual reality (VR) dan augmented reality (AR)
- Visualisasi arsitektur dan desain
- Dengan kecepatan pemrosesan 300 kali lebih tinggi, potensi komersialisasi dan skalabilitasnya besar
Ringkasan pencapaian utama
- Dapat menghasilkan scene 3D dalam kurang dari 7 detik
- Performa 300 kali lebih cepat dibanding model sebelumnya
- Menjamin detail beresolusi tinggi dan konsistensi
- Performa tinggi pada single-view maupun multi-view
- Mampu melakukan pelengkapan generatif yang alami bahkan pada scene yang kompleks dan belum lengkap
Belum ada komentar.