SHARP - Pendekatan untuk mensintesis tampilan fotorealistis dari satu gambar

(apple.github.io)

5 poin oleh GN⁺ 2025-12-17 | 1 komentar | Bagikan ke WhatsApp

SHARP yang diperkenalkan Apple adalah teknologi yang mensintesis sudut pandang baru yang fotorealistis dengan mengestimasi representasi Gaussian 3D dari satu foto
Diproses dengan satu feedforward pass jaringan saraf dalam kurang dari 1 detik pada GPU standar, serta mendukung rendering real-time
Representasi 3D yang dihasilkan merupakan representasi metrik dengan skala absolut, sehingga mendukung pergerakan kamera nyata
Menunjukkan kinerja generalisasi zero-shot pada beberapa dataset, dengan penurunan LPIPS 25–34% dan DISTS 21–43% dibanding model sebelumnya
Meningkatkan kecepatan sintesis 1000 kali lipat dibanding pendekatan sebelumnya, menetapkan standar baru untuk sintesis tampilan 3D berbasis satu gambar

Ikhtisar SHARP

SHARP (Sharp Monocular View Synthesis) adalah pendekatan untuk melakukan sintesis tampilan 3D fotorealistis dari satu gambar
- Mengestimasi parameter representasi Gaussian 3D dari adegan pada satu foto masukan melalui pendekatan regresi
- Proses ini selesai dalam kurang dari 1 detik pada GPU standar
Representasi Gaussian 3D yang dihasilkan mendukung rendering real-time dan menghasilkan gambar beresolusi tinggi dari sudut pandang terdekat
- Mencapai kecepatan rendering lebih dari 100 frame per detik
- Tetap mempertahankan struktur halus dan detail yang tajam

Karakteristik teknis

Representasi 3D SHARP adalah representasi metrik yang mencakup skala absolut, sehingga dapat merefleksikan pergerakan kamera nyata
Diproses hanya dengan satu feedforward pass jaringan saraf, sehingga memberikan hasil cepat tanpa proses optimisasi yang kompleks
Melalui generalisasi zero-shot, performanya tetap stabil bahkan pada dataset yang tidak digunakan saat pelatihan

Kinerja dan hasil perbandingan

Mencapai state of the art pada beberapa dataset
- Peningkatan metrik LPIPS 25–34% dan metrik DISTS 21–43%
- Waktu sintesis 1000 kali lebih singkat dibanding model terbaik sebelumnya
Peningkatan performa ini sekaligus memperbaiki efisiensi dan kualitas sintesis tampilan 3D berbasis satu gambar

Hasil visual

SHARP memvisualisasikan representasi 3D yang dihasilkan dari satu gambar masukan menggunakan foto dari Unsplash sebagai contoh
- Hasil rendering dari sudut pandang terdekat mempertahankan detail tajam dan struktur halus
- Rendering real-time memungkinkan perpindahan sudut pandang yang alami

Sumber penelitian

Makalah penelitian diterbitkan di arXiv:2512.10685
- Judul: Sharp Monocular View Synthesis in Less Than a Second
- Peneliti: Lars Mescheder dan 12 lainnya
- Afiliasi: Apple

1 komentar

GN⁺ 2025-12-17

Komentar Hacker News

“Unsplash > Gen3C > The fly video” benar-benar video seperti mimpi buruk
Kalau mau lihat sendiri, bisa cek tautan ini
- Perusahaan-perusahaan mungkin akan melihat hasil yang mengerikan seperti ini lalu berusaha mengembangkannya lebih cepat, tapi saya masih berharap video yang realistis tetap ada
  Pada akhirnya orang-orang rasanya akan kehilangan hubungan dengan dunia nyata dan bergantung pada setelan hiburan virtual
  Kalau beruntung, mungkin masih ada upaya untuk bertemu orang yang ‘nyata’ lewat augmented reality, tapi kita sudah terlalu bergantung pada teknologi
  Bahkan jika teknologi berkembang, saya ragu hasilnya akan baik bagi manusia
- Rasanya malah indah, seperti masa-masa awal AI ketika “semuanya berubah jadi kepala anjing”
- “san check, 1d10” — lelucon bahwa videonya begitu menyeramkan sampai butuh cek kewarasan seperti meme game horor
- “Seth Brundle has entered the chat.” — menyebut tokoh utama film The Fly untuk mengibaratkan nuansa video yang bermutasi
Saya berhasil membuat sesuatu berjalan di Apple Silicon
Ada juga demo GIF kecil di repositori GitHub ml-sharp
Saya sedang mencoba mendekati Gaussian splat tanpa mengimplementasikannya ulang, tapi jujur ini agak berat
- Artefak banding pada GIF justru membuat api terlihat seperti benar-benar berkedip, yang terasa menarik
  Menarik juga bahwa AI mengenali struktur foto di dalam foto dan menjaga bagian api tetap 2D
- Hasil contohnya sejujurnya tidak terlalu mengesankan. Kalau melihat 20% bagian bawah, kualitasnya menurun
“Ini sebenarnya melakukan apa?”
- Ini adalah teknik seperti dokumenter sejarah, yang memisahkan orang atau objek dari latar pada foto lama lalu memberi gerakan tiga dimensi
  Perangkat lunak ini memprosesnya dalam kurang dari satu detik dan membuat model 3D
  Gaussian splatting-nya sangat keren
- Dengan satu gambar 2D, ini mensimulasikan efek paralaks seolah sudut kamera diubah
  Pemisahan subjeknya juga bagus, dan bisa menangani adegan dengan beberapa objek
  Prinsipnya mirip efek mode potret
- Ini mengubah satu foto menjadi adegan 3D kasar sehingga ketika kamera sedikit digerakkan, kita bisa melihat sudut pandang baru
  “Photorealistic” berarti tekstur dan pencahayaan dunia nyata tetap dipertahankan
  Mirip dengan fitur Spatial Scene di aplikasi Apple Photos — video demo
- Ini menyimpulkan representasi 3D tersembunyi dari satu foto, lalu menghasilkan gambar realistis dari sudut pandang yang sedikit berbeda
- Pada dasarnya ini memakai estimasi kedalaman (depth estimation) untuk membagi adegan menjadi beberapa bidang, lalu mengisi bagian yang tertutup dengan inpainting
  Setelah itu tiap bidang digerakkan untuk membuat paralaks — mirip efek kedalaman latar belakang pada game side-scrolling 2D
Terlihat mencolok bahwa hampir tidak ada wajah manusia di contoh-contohnya
Dari pengalaman sejauh ini, model seperti ini kalau dilihat dalam 3D membuat orang tampak seperti boneka kertas 2D
Saya tidak tahu apakah model ini benar-benar bisa menampilkan kedalaman yang meyakinkan, tapi absennya wajah manusia terasa cukup bermakna
- Apple memakai model Depth Pro untuk estimasi kedalaman, dan katanya representasi wajahnya cukup bagus
  Depth Pro GitHub / penjelasan LearnOpenCV
Ini dibuat oleh Apple, tapi hanya untuk GPU CUDA dokumentasi terkait
- Menariknya, model Apple sendiri tidak berjalan di MPS
  Sepertinya harus menunggu beberapa tahun
- Output Gaussian splat tetap bisa dihasilkan di CPU
  Dari semua repositori AI yang pernah saya coba, ini salah satu yang paling mudah dijalankan
- Versi modifikasinya ada di sini
- Batasan ini hanya berlaku untuk rendering video
  Modelnya sendiri berjalan di GPU, CPU, dan MPS
- Modelnya bekerja tanpa CUDA
  Hasilnya berupa file .ply yang bisa dimasukkan ke viewer SparkJS
  CUDA hanya diperlukan untuk rendering video side-scroll
Intinya adalah “menghasilkan representasi 3D realistis dari satu foto dalam waktu kurang dari 1 detik”
Fitur Spatial Scene di aplikasi Apple Photos juga bekerja dengan cara serupa
video demo
- Tetapi hasilnya sering membuat ruang yang buram dan tidak alami
  Ada masa ketika content-aware fill di Photoshop justru terasa lebih baik
Apakah ada file sampel Gaussian splat?
- Saya mengunggah hasil pengujian saya ke repositori ini
  Namun, karena contohnya hanya satu, sulit untuk digeneralisasi
Hasilnya memang mengesankan, tapi terasa terlalu tajam dan artifisial
- Saya pribadi suka hasil TMPI maupun SHARP
  Hanya saja TMPI selalu terlihat lebih terang, jadi saya tidak tahu mana yang lebih akurat

SHARP - Pendekatan untuk mensintesis tampilan fotorealistis dari satu gambar

Ikhtisar SHARP

Karakteristik teknis

Kinerja dan hasil perbandingan

Hasil visual

Sumber penelitian

Bacaan terkait

1 komentar

Komentar Hacker News