- SHARP yang diperkenalkan Apple adalah teknologi yang mensintesis sudut pandang baru yang fotorealistis dengan mengestimasi representasi Gaussian 3D dari satu foto
- Diproses dengan satu feedforward pass jaringan saraf dalam kurang dari 1 detik pada GPU standar, serta mendukung rendering real-time
- Representasi 3D yang dihasilkan merupakan representasi metrik dengan skala absolut, sehingga mendukung pergerakan kamera nyata
- Menunjukkan kinerja generalisasi zero-shot pada beberapa dataset, dengan penurunan LPIPS 25–34% dan DISTS 21–43% dibanding model sebelumnya
- Meningkatkan kecepatan sintesis 1000 kali lipat dibanding pendekatan sebelumnya, menetapkan standar baru untuk sintesis tampilan 3D berbasis satu gambar
Ikhtisar SHARP
- SHARP (Sharp Monocular View Synthesis) adalah pendekatan untuk melakukan sintesis tampilan 3D fotorealistis dari satu gambar
- Mengestimasi parameter representasi Gaussian 3D dari adegan pada satu foto masukan melalui pendekatan regresi
- Proses ini selesai dalam kurang dari 1 detik pada GPU standar
- Representasi Gaussian 3D yang dihasilkan mendukung rendering real-time dan menghasilkan gambar beresolusi tinggi dari sudut pandang terdekat
- Mencapai kecepatan rendering lebih dari 100 frame per detik
- Tetap mempertahankan struktur halus dan detail yang tajam
Karakteristik teknis
- Representasi 3D SHARP adalah representasi metrik yang mencakup skala absolut, sehingga dapat merefleksikan pergerakan kamera nyata
- Diproses hanya dengan satu feedforward pass jaringan saraf, sehingga memberikan hasil cepat tanpa proses optimisasi yang kompleks
- Melalui generalisasi zero-shot, performanya tetap stabil bahkan pada dataset yang tidak digunakan saat pelatihan
Kinerja dan hasil perbandingan
- Mencapai state of the art pada beberapa dataset
- Peningkatan metrik LPIPS 25–34% dan metrik DISTS 21–43%
- Waktu sintesis 1000 kali lebih singkat dibanding model terbaik sebelumnya
- Peningkatan performa ini sekaligus memperbaiki efisiensi dan kualitas sintesis tampilan 3D berbasis satu gambar
Hasil visual
- SHARP memvisualisasikan representasi 3D yang dihasilkan dari satu gambar masukan menggunakan foto dari Unsplash sebagai contoh
- Hasil rendering dari sudut pandang terdekat mempertahankan detail tajam dan struktur halus
- Rendering real-time memungkinkan perpindahan sudut pandang yang alami
Sumber penelitian
- Makalah penelitian diterbitkan di arXiv:2512.10685
- Judul: Sharp Monocular View Synthesis in Less Than a Second
- Peneliti: Lars Mescheder dan 12 lainnya
- Afiliasi: Apple
1 komentar
Komentar Hacker News
“Unsplash > Gen3C > The fly video” benar-benar video seperti mimpi buruk
Kalau mau lihat sendiri, bisa cek tautan ini
Pada akhirnya orang-orang rasanya akan kehilangan hubungan dengan dunia nyata dan bergantung pada setelan hiburan virtual
Kalau beruntung, mungkin masih ada upaya untuk bertemu orang yang ‘nyata’ lewat augmented reality, tapi kita sudah terlalu bergantung pada teknologi
Bahkan jika teknologi berkembang, saya ragu hasilnya akan baik bagi manusia
Saya berhasil membuat sesuatu berjalan di Apple Silicon
Ada juga demo GIF kecil di repositori GitHub ml-sharp
Saya sedang mencoba mendekati Gaussian splat tanpa mengimplementasikannya ulang, tapi jujur ini agak berat
Menarik juga bahwa AI mengenali struktur foto di dalam foto dan menjaga bagian api tetap 2D
“Ini sebenarnya melakukan apa?”
Perangkat lunak ini memprosesnya dalam kurang dari satu detik dan membuat model 3D
Gaussian splatting-nya sangat keren
Pemisahan subjeknya juga bagus, dan bisa menangani adegan dengan beberapa objek
Prinsipnya mirip efek mode potret
“Photorealistic” berarti tekstur dan pencahayaan dunia nyata tetap dipertahankan
Mirip dengan fitur Spatial Scene di aplikasi Apple Photos — video demo
Setelah itu tiap bidang digerakkan untuk membuat paralaks — mirip efek kedalaman latar belakang pada game side-scrolling 2D
Terlihat mencolok bahwa hampir tidak ada wajah manusia di contoh-contohnya
Dari pengalaman sejauh ini, model seperti ini kalau dilihat dalam 3D membuat orang tampak seperti boneka kertas 2D
Saya tidak tahu apakah model ini benar-benar bisa menampilkan kedalaman yang meyakinkan, tapi absennya wajah manusia terasa cukup bermakna
Depth Pro GitHub / penjelasan LearnOpenCV
Ini dibuat oleh Apple, tapi hanya untuk GPU CUDA dokumentasi terkait
Sepertinya harus menunggu beberapa tahun
Dari semua repositori AI yang pernah saya coba, ini salah satu yang paling mudah dijalankan
Modelnya sendiri berjalan di GPU, CPU, dan MPS
Hasilnya berupa file
.plyyang bisa dimasukkan ke viewer SparkJSCUDA hanya diperlukan untuk rendering video side-scroll
Intinya adalah “menghasilkan representasi 3D realistis dari satu foto dalam waktu kurang dari 1 detik”
Fitur Spatial Scene di aplikasi Apple Photos juga bekerja dengan cara serupa
video demo
Ada masa ketika content-aware fill di Photoshop justru terasa lebih baik
Apakah ada file sampel Gaussian splat?
Namun, karena contohnya hanya satu, sulit untuk digeneralisasi
Hasilnya memang mengesankan, tapi terasa terlalu tajam dan artifisial
Hanya saja TMPI selalu terlihat lebih terang, jadi saya tidak tahu mana yang lebih akurat