1 poin oleh GN⁺ 2023-12-14 | 1 komentar | Bagikan ke WhatsApp

Radiation Field yang Dapat Di-stream dan Efisien Memori untuk Penjelajahan Adegan Skala Besar Secara Real-time (SMERF)

  • Kemajuan teknologi sintesis tampilan real-time memungkinkan perenderan adegan yang nyaris seperti foto secara real-time.
  • Terdapat ketegangan antara representasi adegan eksplisit yang dapat dirasterisasi dan neural field berbasis ray marching.
  • SMERF memperkenalkan pendekatan sintesis tampilan yang mencapai akurasi terbaik secara real-time pada adegan skala besar.

Metode peningkatan daya representasi untuk menangani adegan skala besar

  • Adegan multi-ruang berskala besar dimodelkan sebagai beberapa submodel independen, lalu submodel dipilih saat rendering berdasarkan titik asal kamera.
  • Untuk memodelkan efek kompleks yang bergantung pada sudut pandang, parameter MLP tertunda yang disejajarkan dengan grid diinstansiasikan tambahan di dalam setiap submodel.
  • Setiap submodel merepresentasikan seluruh adegan, tetapi hanya sel grid yang dialokasikan ke submodel tersebut yang dimodelkan dalam resolusi tinggi.

Cara memanfaatkan distillation untuk memaksimalkan daya representasi

  • Ditunjukkan bahwa kualitas gambar dapat ditingkatkan secara signifikan melalui distillation.
  • Radiation field offline mutakhir (Zip-NeRF) terlebih dahulu dilatih, lalu prediksi warna RGB dari model ini digunakan sebagai supervisi untuk model mereka sendiri.
  • Nilai densitas volumetrik dari model guru diminimalkan untuk meminimalkan perbedaan bobot volume rendering antara guru dan murid.

Opini GN⁺

  • SMERF adalah teknologi inovatif yang memungkinkan sintesis tampilan berkualitas tinggi secara real-time pada adegan skala besar.
  • Teknologi ini memungkinkan navigasi 6DOF di dalam browser web dan memberikan performa real-time pada berbagai perangkat konsumen umum.
  • Pendekatan SMERF menunjukkan performa yang melampaui teknologi sebelumnya di bidang sintesis tampilan real-time, dan merupakan perkembangan menarik yang dapat diterapkan di berbagai bidang seperti realitas virtual, pengembangan gim, dan tur properti online.

1 komentar

 
GN⁺ 2023-12-14
Komentar Hacker News
  • Cermin di dinding kamar mandi pada lokasi Berlin bisa melihat melalui dapur di ruangan sebelah. Diduga hal ini terjadi karena algoritme pengukuran kedalaman menggunakan paralaks dan cermin membingungkannya seolah-olah itu jendela. Bagian belakang cermin menciptakan area buram di dapur, tetapi melalui keburaman itu kedua ruangan bisa terlihat. Efek ini terasa agak menyeramkan. Rasanya seperti hantu yang bisa menembus dinding. Bahkan di s21fe yang sudah berusia 2 tahun pun berjalan dengan sangat mengesankan.
  • Saat menjelajahi ruang pada demo Berlin, sangat mengesankan melihat lebih banyak gambar di-streaming. Efek pantulan TV juga sangat mengesankan. Namun, adegan tidak dirender sampai semua gambar dimuat, sehingga butuh waktu lama sampai sekitar 40 gambar awal selesai dimuat. Saya penasaran apakah mungkin mulai merender sebagian begitu gambar datang, atau memang harus menunggu semua gambar sebelum melakukan render besar pertama.
  • Ada beberapa pertanyaan tentang demo fulllivingroom. (lebih suka mode FPS)
    1. Ada berapa gambar input?
    2. Berapa lama waktu yang dibutuhkan untuk menghitung model ini?
    3. Berapa lama waktu yang dibutuhkan untuk menyiapkan model ini di browser dengan semua level dan sebagainya?
    4. Apakah ini pernah dicoba di VR?
  • Saya penasaran hubungan apa yang ada antara teknik rendering ini dan adegan BD yang dihasilkan di Cyberpunk 2077. Perilaku volume dan "voxel" tampak sangat mirip.
  • Saya mengikuti teknologi ini lewat Two Minutes Paper, dan menantikan untuk menggunakannya. Kakek saya meninggal dua tahun lalu, dan saya sudah mengambil foto-foto seperti yang digunakan dalam demo. Terima kasih.
  • Saya penasaran apakah ada toolchain open source untuk menangkap, memproses, dan meng-host 3D walkthrough yang bisa dijelajahi (misalnya seperti Matterport open source).
  • Sangat mengesankan melihat informasi tentang bagaimana teknik ini dibandingkan dengan 3D Gaussian Splatting dalam hal performa, kualitas, atau ukuran data.
  • Yang bisa dilihat dari teknologi-teknologi ini adalah gambar 3D tunggal yang sangat akurat dan bisa dijelajahi. Namun, saya belum melihat apa pun terkait deteksi fitur dan objek, occlusion, serta ekstraksi. Mudah-mudahan codec yang lebih efisien dan bisa di-streaming akan membutuhkan struktur yang lebih mudah diterapkan untuk analisis.
  • Saya penasaran kapan teknologi ini akan terlihat di VR konsumen. Saya sempat mengira ini sudah ada, tetapi tampaknya belum karena keterbatasan komputasi. Saya penasaran apakah ini mengatasi keterbatasan komputasi hingga cukup untuk dijalankan di Quest 2/3, atau ada faktor lain yang menghambat penggunaan binokular.
  • Pertanyaan untuk penulis: saya penasaran apakah ada peluang untuk tidak menggunakan metode optimisasi atau tuning dalam merekonstruksi model adegan. Kalian meningkatkan cara efisien untuk merender tampilan adegan, tetapi adegannya sendiri masih statis. Merekonstruksi adegan juga tetap membutuhkan waktu. Saya penasaran apakah ada cara untuk mencapai tampilan dan detail hebat dari RF dan GS tanpa biaya rekonstruksi yang mahal, atau apakah dengan representasi baru yang kini bisa dirender dengan cepat, ada cara untuk merekonstruksi adegan secara greedy menggunakan metode CG tradisional. Maaf sebelumnya jika saya salah paham, dan saya sangat menghargai pekerjaan yang sedang kalian lakukan.