SMERF: Medan Radiansi yang Dapat Di-streaming dan Hemat Memori

(smerf-3d.github.io)

1 poin oleh GN⁺ 2023-12-14 | 1 komentar | Bagikan ke WhatsApp

SMERF adalah metode sintesis tampilan untuk menjelajahi adegan 3D besar secara real-time di browser web, dengan target skala hingga 300m² dan resolusi volumetrik 3.5mm³
Adegan dibagi menjadi beberapa submodel independen, lalu hanya model yang diperlukan dipilih berdasarkan origin kamera untuk mengurangi komputasi dan penggunaan memori saat rendering
Mula-mula medan radiansi offline Zip-NeRF dilatih, lalu didistilasi ke SMERF menggunakan prediksi RGB dan perbedaan bobot volume rendering guna meningkatkan kualitas
Dalam sintesis sudut pandang baru secara real-time, metode ini menunjukkan peningkatan 0.78dB pada benchmark standar dan 1.78dB pada adegan besar, serta rendering frame ratusan kali lebih cepat dibanding model medan radiansi mutakhir
Mendukung navigasi 6DOF berbasis browser sehingga adegan besar bisa dijelajahi secara real-time bahkan di perangkat konsumen seperti smartphone dan laptop biasa

Hambatan pada penjelajahan real-time adegan besar

Teknik sintesis tampilan real-time berkembang pesat, sehingga rendering adegan yang mendekati foto kini dimungkinkan bahkan pada frame rate interaktif
Namun, masih ada trade-off yang jelas antara representasi adegan eksplisit yang cocok untuk rasterisasi dan neural fields berbasis ray marching
- Metode neural field terbaru melampaui representasi eksplisit dari sisi kualitas, tetapi biaya komputasinya tinggi untuk aplikasi real-time
SMERF adalah pendekatan sintesis tampilan yang menargetkan akurasi tingkat tertinggi di antara metode real-time untuk adegan besar
- Ruang hingga 300m²
- Resolusi volumetrik 3.5mm³
- Penjelajahan 6DOF di dalam browser web
- Rendering real-time pada smartphone dan laptop biasa

Representasi berbasis submodel dan pelatihan distilasi

Adegan besar dengan banyak ruangan direpresentasikan dengan membaginya ke beberapa submodel independen untuk mempertahankan daya representasi
- Setiap submodel dialokasikan ke area adegan yang berbeda
- Saat rendering, submodel yang digunakan dipilih berdasarkan origin kamera
Untuk menangani efek kompleks yang bergantung pada sudut pandang, setiap submodel juga memiliki salinan parameter deferred MLP yang disejajarkan ke grid
- Parameter tersebut diinterpolasi secara trilinear berdasarkan origin kamera
Setiap submodel merepresentasikan seluruh adegan, tetapi hanya memodelkan sel grid yang terhubung dengannya dalam resolusi tinggi
- Ini diimplementasikan dengan cara menyusutkan koordinat lokal per submodel
Fidelitas gambar ditingkatkan melalui distillation
- Pertama, Zip-NeRF, medan radiansi offline mutakhir, dilatih terlebih dahulu
- Prediksi warna RGB dari model guru digunakan sebagai sinyal supervisi untuk SMERF
- Nilai densitas volumetrik dari guru yang telah dipra-latih digunakan untuk meminimalkan perbedaan bobot volume rendering antara guru dan murid

Hasil kinerja dan materi publik

SMERF melampaui metode terbaik sebelumnya untuk sintesis sudut pandang baru secara real-time
- Peningkatan 0.78dB pada benchmark standar
- Peningkatan 1.78dB pada adegan besar
- Rendering frame ratusan kali lebih cepat daripada model medan radiansi mutakhir
Demo viewer interaktif real-time mencakup adegan Berlin, NYC, Alameda, London, Gardenvase, Bicycle, Kitchen Lego, Stump, Office Bonsai, Full Living Room, Kitchen Counter, Treehill & Flower
Materi publik yang tersedia meliputi Paper, Video, Code
Model SMERF didistilasi dari checkpoint Zip-NeRF yang dilatih pada adegan Mip-NeRF 360 dan Zip-NeRF
- Kedua dataset dan checkpoint tersebut dirilis dengan lisensi CC-BY 4.0
- Checkpoint Mip-NeRF 360 digunakan untuk hasil kuantitatif dan kualitatif, sedangkan checkpoint Zip-NeRF dilatih selama 50,000 steps
- Materi fisheye Zip-NeRF mencakup Alameda, Berlin, London, NYC, digunakan untuk hasil kualitatif, dan dilatih selama 100,000 steps
- Materi undistorted Zip-NeRF digunakan untuk hasil kuantitatif dan dilatih selama 100,000 steps

1 komentar

GN⁺ 2023-12-14

Komentar Hacker News

Cermin dinding kamar mandi di demo Berlin terlihat seperti mengarah ke dapur di ruangan sebelah
Sepertinya algoritme estimasi kedalaman menggunakan paralaks, dan fenomena ini tampaknya terjadi karena cermin disalahartikan sebagai jendela
Di sisi dapur, ada gumpalan buram yang tampak seperti bagian belakang cermin menjorok ke dalam dapur, tetapi di balik keburaman itu kedua ruangan tetap terlihat
Rasanya cukup menyeramkan, seperti menjadi hantu yang bisa menembus dinding
- Kulkas di adegan NYC punya efek pencahayaan refleksi spekular yang berubah sangat mulus tergantung sudut pandang, dan kalau masuk “ke dalam” kulkas, sebenarnya ia menghasilkan seluruh adegan 3D abu-abu dan putih yang buram
  Itu dengan tepat meniru efek cahaya jendela yang memantul pada logam, dan dari dalam kulkas kita juga bisa melihat seluruh ruangan “ke luar”
  Cermin seluruh badan di kamar tidur pada adegan yang sama juga begitu; ada ruang cermin virtual yang terbentuk di belakang cermin sehingga terasa memiliki kedalaman saat kita mengintip ke dalamnya
  Ini hasil yang sangat keren dan khas dari teknologi ini
- Kalau masuk ke dalam rak buku, kita juga bisa mendapatkan pengalaman Matthew McConaughey pamungkas
- Kalau menembus TV di ruang tamu Berlin dengan noclip, rasanya menyenangkan sekaligus menyeramkan
- Pada permukaan yang sangat reflektif, kelemahannya persis sama seperti fotogrametri
Astaga, benar-benar menakjubkan
Matterport bisa saja mengambil ini dan mendorongnya habis-habisan, atau akan muncul startup yang mengguncang pasar properti
Sulit dipercaya ini bisa berjalan semulus itu di smartphone
Sebagai masukan, sepertinya akan lebih alami jika ada mode untuk bergerak menggunakan kompas dan giro di ponsel
Mengontrol dengan jari sambil memahami cara bergerak dalam dimensi xyz terasa agak canggung
Seperti yang dikatakan orang lain, mode VR akan luar biasa
- Saya tidak yakin ini benar-benar fitur yang diinginkan pasar properti
  Alasan orang memakai foto yang ditata dan dipilih dengan cermat adalah agar orang datang melihat properti secara langsung
  Menurut saya sulit jatuh cinta pada rumah hanya karena melihatnya lewat realitas virtual
- Terima kasih atas masukannya
  Saya rasa pengalaman pengguna untuk pergerakan masih bisa lebih ditingkatkan
  Itu tugas untuk diselesaikan di lain hari
Berjalan sangat mengesankan bahkan di S21 FE yang sudah berumur 2 tahun
Cara ia men-streaming lebih banyak gambar saat kita melihat-lihat ruang benar-benar mengesankan, dan pantulan TV di demo Berlin juga sangat bagus
Namun butuh waktu cukup lama untuk memuat semua gambar, dan adegan tidak dirender sampai sekitar 40 gambar awal semuanya selesai dimuat
Saya penasaran apakah rendering parsial bisa dimulai saat gambar tiba, atau memang harus menunggu semuanya sebelum rendering besar pertama
- Menyebut item yang saat ini dimuat sebagai “gambar” kurang tepat
  Versi sebelumnya dari pendekatan ini, MERF, menyimpan vektor fitur dalam gambar PNG, tetapi di sini kami menggantinya dengan array biner
  Sayangnya, untuk merender frame pertama, semua array seperti itu harus dimuat
  Namun seperti yang Anda tunjukkan, ukuran payload SMERF yang besar memang kelemahan
  Jika kami menemukan cara mengompresnya 10x, pengalamannya akan sepenuhnya berbeda
Benar-benar menakjubkan. Saya punya beberapa pertanyaan berdasarkan demo fulllivingroom
Secara pribadi, saya lebih suka mode FPS
1. Berapa banyak gambar inputnya?
2. Berapa lama waktu yang dibutuhkan untuk menghitung model seperti ini?
3. Berapa lama waktu yang dibutuhkan untuk menyiapkannya menjadi model untuk browser, termasuk berbagai tahap dan lain-lain?
4. Apakah sudah dicoba di VR?
- Senang Anda menyukainya
  1. Kalau ingatan saya benar, sekitar 100–150 gambar
    Adegan ini merupakan bagian dari benchmark mip-NeRF 360, dan bisa diunduh dari situs proyek tersebut: https://jonbarron.info/mipnerf360/
  2. Tergantung adegan, sekitar 12–48 jam
    Untuk pelatihan, kami menggunakan 8x V100 atau 16x A100
  3. Waktu persiapan aset sudah termasuk dalam 2)
    Tidak ada rincian detail, tetapi kira-kira 50/50
  4. Belum
    Hacker yang termotivasi sepertinya bisa mengubah kode JavaScript dan mencobanya sendiri
    Kalau membuka DevTools browser, semua kodenya ada di sana
- Tidak persis sama dengan yang ditanyakan, tetapi saya baru-baru ini melihat contoh VR yang memakai Gaussian Splatting
  Masa yang menarik
  https://twitter.com/gracia_vr/status/1731731549886787634
  https://www.gracia.ai
“Researchers create open-source platform for Neural Radiance Field development” (2023)
https://news.ycombinator.com/item?id=36966076
Included Methods, Third-party Methods dari NeRF Studio:
https://docs.nerf.studio/#supported-methods
Neural Radiance Field:
https://en.wikipedia.org/wiki/Neural_radiance_field
Saya mengikuti teknologi ini lewat Two Minute Papers, dan menantikan hari ketika bisa mencobanya sendiri
Kakek saya meninggal 2 tahun lalu, dan kalau dipikir-pikir, saya ternyata sudah mengambil foto-foto untuk digunakan seperti demo ini
Karya yang keren
- Impiannya adalah membuat menangkap kenangan 3D semudah dan sealami mengambil foto 2D dengan smartphone
  Suatu hari nanti itu akan mungkin
Ini benar-benar karya yang menakjubkan, dan luar biasa rasanya bisa melihat ini di browser web ponsel
Saat melihat scene NYC di desktop dengan kualitas tertinggi, saya terkejut karena misalnya kualitas objek di atas counter dan rak cukup rendah
Jadi saya membuka model Lego, dan yang itu sangat mendetail, sehingga tampaknya bukan keterbatasan dari metodenya sendiri
Saya penasaran apakah ini karena kualitas foto input, atau ada alasan lain
- Pengaruh resolusi spasial lebih besar
  Semakin besar ruangnya, semakin banyak voxel yang dibutuhkan untuk mempertahankan resolusi tetap, misalnya 1 mm^3
  Pada titik tertentu, kita harus mengorbankan resolusi spasial untuk merepresentasikan scene yang lebih besar
  Batasan kedua adalah model teacher yang digunakan untuk distilasi
  Zip-NeRF(https://jonbarron.info/zipnerf/) bagus, tetapi tidak sempurna
  Batas atas kualitas rekonstruksi SMERF ditentukan oleh Zip-NeRF sebagai teacher-nya
Tampaknya ada pasar bagi agen properti untuk mengunggah foto dan membuat walkthrough rumah yang dijual
- https://matterport.com/
- Luma juga membuat sesuatu yang mirip: https://apps.apple.com/app/luma-flythroughs/id6450376609?l=e...
Saya penasaran apakah ada toolchain open source untuk menangkap, memproses, dan meng-host walkthrough 3D yang bisa dieksplorasi seperti ini
Misalnya semacam Matterport open source
- Sejauh yang saya tahu, belum ada
  Alur saat ini adalah menangkap dengan DSLR, memperkirakan parameter kamera dengan COLMAP, lalu melatih model teacher dengan satu codebase, melatih SMERF dengan codebase kami, dan merender model dengan web viewer
  Kedengarannya seperti sebuah peluang
- Toolchain untuk capture tidak selalu diperlukan; yang penting datanya ada
  Kumpulkan datanya sekarang, lalu proses ketika alat yang lebih baik sudah tersedia
  Panduan photogrammetry dan pengambilan gambar NeRF pada umumnya bisa langsung diterapkan untuk pekerjaan yang dibutuhkan
Yang terlihat dari hal-hal seperti ini lebih mirip gambar 3D yang sangat akurat dan dapat dieksplorasi
Yang belum saya lihat adalah deteksi fitur dan objek, blocking, serta ekstraksi
Jika nanti dibutuhkan codec yang lebih efisien dan bisa di-streaming, saya berharap struktur yang mudah dianalisis juga akan menjadi kebutuhan alami
- Bidang pemahaman 3D masih sangat awal
  Ada riset bagus yang sedang berlangsung di area ini, tetapi jalannya masih panjang
  SMERF berkaitan dengan “sintesis sudut pandang” untuk merender gambar realistis, dan tidak mencoba pemahaman semantik maupun segmentasi
- Apakah yang dimaksud seperti ini? https://jumpat.github.io/SA3D/
  Saya menemukannya dengan memasukkan “nerf sam segment 3d” di DuckDuckGo
- Lihat karya LERF dari tim NerfStudio di UC Berkeley
  SMERF menangani masalah yang berbeda, tetapi jelas ada cara untuk mengintegrasikan informasi semantik dan deteksi

SMERF: Medan Radiansi yang Dapat Di-streaming dan Hemat Memori

Hambatan pada penjelajahan real-time adegan besar

Representasi berbasis submodel dan pelatihan distilasi

Hasil kinerja dan materi publik

Bacaan terkait

1 komentar

Komentar Hacker News