- SHARP yang diperkenalkan Apple adalah teknologi yang mensintesis sudut pandang baru yang fotorealistis dengan mengestimasi representasi Gaussian 3D dari satu foto
- Diproses dengan satu feedforward pass jaringan saraf dalam kurang dari 1 detik pada GPU standar, serta mendukung rendering real-time
- Representasi 3D yang dihasilkan merupakan representasi metrik dengan skala absolut, sehingga mendukung pergerakan kamera nyata
- Menunjukkan kinerja generalisasi zero-shot pada beberapa dataset, dengan penurunan LPIPS 25–34% dan DISTS 21–43% dibanding model sebelumnya
- Meningkatkan kecepatan sintesis 1000 kali lipat dibanding pendekatan sebelumnya, menetapkan standar baru untuk sintesis tampilan 3D berbasis satu gambar
Ikhtisar SHARP
- SHARP (Sharp Monocular View Synthesis) adalah pendekatan untuk melakukan sintesis tampilan 3D fotorealistis dari satu gambar
- Mengestimasi parameter representasi Gaussian 3D dari adegan pada satu foto masukan melalui pendekatan regresi
- Proses ini selesai dalam kurang dari 1 detik pada GPU standar
- Representasi Gaussian 3D yang dihasilkan mendukung rendering real-time dan menghasilkan gambar beresolusi tinggi dari sudut pandang terdekat
- Mencapai kecepatan rendering lebih dari 100 frame per detik
- Tetap mempertahankan struktur halus dan detail yang tajam
Karakteristik teknis
- Representasi 3D SHARP adalah representasi metrik yang mencakup skala absolut, sehingga dapat merefleksikan pergerakan kamera nyata
- Diproses hanya dengan satu feedforward pass jaringan saraf, sehingga memberikan hasil cepat tanpa proses optimisasi yang kompleks
- Melalui generalisasi zero-shot, performanya tetap stabil bahkan pada dataset yang tidak digunakan saat pelatihan
Kinerja dan hasil perbandingan
- Mencapai state of the art pada beberapa dataset
- Peningkatan metrik LPIPS 25–34% dan metrik DISTS 21–43%
- Waktu sintesis 1000 kali lebih singkat dibanding model terbaik sebelumnya
- Peningkatan performa ini sekaligus memperbaiki efisiensi dan kualitas sintesis tampilan 3D berbasis satu gambar
Hasil visual
- SHARP memvisualisasikan representasi 3D yang dihasilkan dari satu gambar masukan menggunakan foto dari Unsplash sebagai contoh
- Hasil rendering dari sudut pandang terdekat mempertahankan detail tajam dan struktur halus
- Rendering real-time memungkinkan perpindahan sudut pandang yang alami
Sumber penelitian
- Makalah penelitian diterbitkan di arXiv:2512.10685
- Judul: Sharp Monocular View Synthesis in Less Than a Second
- Peneliti: Lars Mescheder dan 12 lainnya
- Afiliasi: Apple
Belum ada komentar.