5 poin oleh GN⁺ 2025-12-17 | 1 komentar | Bagikan ke WhatsApp
  • SHARP yang diperkenalkan Apple adalah teknologi yang mensintesis sudut pandang baru yang fotorealistis dengan mengestimasi representasi Gaussian 3D dari satu foto
  • Diproses dengan satu feedforward pass jaringan saraf dalam kurang dari 1 detik pada GPU standar, serta mendukung rendering real-time
  • Representasi 3D yang dihasilkan merupakan representasi metrik dengan skala absolut, sehingga mendukung pergerakan kamera nyata
  • Menunjukkan kinerja generalisasi zero-shot pada beberapa dataset, dengan penurunan LPIPS 25–34% dan DISTS 21–43% dibanding model sebelumnya
  • Meningkatkan kecepatan sintesis 1000 kali lipat dibanding pendekatan sebelumnya, menetapkan standar baru untuk sintesis tampilan 3D berbasis satu gambar

Ikhtisar SHARP

  • SHARP (Sharp Monocular View Synthesis) adalah pendekatan untuk melakukan sintesis tampilan 3D fotorealistis dari satu gambar
    • Mengestimasi parameter representasi Gaussian 3D dari adegan pada satu foto masukan melalui pendekatan regresi
    • Proses ini selesai dalam kurang dari 1 detik pada GPU standar
  • Representasi Gaussian 3D yang dihasilkan mendukung rendering real-time dan menghasilkan gambar beresolusi tinggi dari sudut pandang terdekat
    • Mencapai kecepatan rendering lebih dari 100 frame per detik
    • Tetap mempertahankan struktur halus dan detail yang tajam
Iklan

Karakteristik teknis

  • Representasi 3D SHARP adalah representasi metrik yang mencakup skala absolut, sehingga dapat merefleksikan pergerakan kamera nyata
  • Diproses hanya dengan satu feedforward pass jaringan saraf, sehingga memberikan hasil cepat tanpa proses optimisasi yang kompleks
  • Melalui generalisasi zero-shot, performanya tetap stabil bahkan pada dataset yang tidak digunakan saat pelatihan

Kinerja dan hasil perbandingan

  • Mencapai state of the art pada beberapa dataset
    • Peningkatan metrik LPIPS 25–34% dan metrik DISTS 21–43%
    • Waktu sintesis 1000 kali lebih singkat dibanding model terbaik sebelumnya
  • Peningkatan performa ini sekaligus memperbaiki efisiensi dan kualitas sintesis tampilan 3D berbasis satu gambar
Iklan

Hasil visual

  • SHARP memvisualisasikan representasi 3D yang dihasilkan dari satu gambar masukan menggunakan foto dari Unsplash sebagai contoh
    • Hasil rendering dari sudut pandang terdekat mempertahankan detail tajam dan struktur halus
    • Rendering real-time memungkinkan perpindahan sudut pandang yang alami

Sumber penelitian

  • Makalah penelitian diterbitkan di arXiv:2512.10685
    • Judul: Sharp Monocular View Synthesis in Less Than a Second
    • Peneliti: Lars Mescheder dan 12 lainnya
    • Afiliasi: Apple

1 komentar

 
GN⁺ 2025-12-17
Komentar Hacker News
  • “Unsplash > Gen3C > The fly video” benar-benar video seperti mimpi buruk
    Kalau mau lihat sendiri, bisa cek tautan ini

    • Perusahaan-perusahaan mungkin akan melihat hasil yang mengerikan seperti ini lalu berusaha mengembangkannya lebih cepat, tapi saya masih berharap video yang realistis tetap ada
      Pada akhirnya orang-orang rasanya akan kehilangan hubungan dengan dunia nyata dan bergantung pada setelan hiburan virtual
      Kalau beruntung, mungkin masih ada upaya untuk bertemu orang yang ‘nyata’ lewat augmented reality, tapi kita sudah terlalu bergantung pada teknologi
      Bahkan jika teknologi berkembang, saya ragu hasilnya akan baik bagi manusia
    • Rasanya malah indah, seperti masa-masa awal AI ketika “semuanya berubah jadi kepala anjing
    • “san check, 1d10” — lelucon bahwa videonya begitu menyeramkan sampai butuh cek kewarasan seperti meme game horor
    • “Seth Brundle has entered the chat.” — menyebut tokoh utama film The Fly untuk mengibaratkan nuansa video yang bermutasi
  • Saya berhasil membuat sesuatu berjalan di Apple Silicon
    Ada juga demo GIF kecil di repositori GitHub ml-sharp
    Saya sedang mencoba mendekati Gaussian splat tanpa mengimplementasikannya ulang, tapi jujur ini agak berat

    • Artefak banding pada GIF justru membuat api terlihat seperti benar-benar berkedip, yang terasa menarik
      Menarik juga bahwa AI mengenali struktur foto di dalam foto dan menjaga bagian api tetap 2D
    • Hasil contohnya sejujurnya tidak terlalu mengesankan. Kalau melihat 20% bagian bawah, kualitasnya menurun
  • “Ini sebenarnya melakukan apa?”

    • Ini adalah teknik seperti dokumenter sejarah, yang memisahkan orang atau objek dari latar pada foto lama lalu memberi gerakan tiga dimensi
      Perangkat lunak ini memprosesnya dalam kurang dari satu detik dan membuat model 3D
      Gaussian splatting-nya sangat keren
    • Dengan satu gambar 2D, ini mensimulasikan efek paralaks seolah sudut kamera diubah
      Pemisahan subjeknya juga bagus, dan bisa menangani adegan dengan beberapa objek
      Prinsipnya mirip efek mode potret
    • Ini mengubah satu foto menjadi adegan 3D kasar sehingga ketika kamera sedikit digerakkan, kita bisa melihat sudut pandang baru
      “Photorealistic” berarti tekstur dan pencahayaan dunia nyata tetap dipertahankan
      Mirip dengan fitur Spatial Scene di aplikasi Apple Photos — video demo
    • Ini menyimpulkan representasi 3D tersembunyi dari satu foto, lalu menghasilkan gambar realistis dari sudut pandang yang sedikit berbeda
    • Pada dasarnya ini memakai estimasi kedalaman (depth estimation) untuk membagi adegan menjadi beberapa bidang, lalu mengisi bagian yang tertutup dengan inpainting
      Setelah itu tiap bidang digerakkan untuk membuat paralaks — mirip efek kedalaman latar belakang pada game side-scrolling 2D
  • Terlihat mencolok bahwa hampir tidak ada wajah manusia di contoh-contohnya
    Dari pengalaman sejauh ini, model seperti ini kalau dilihat dalam 3D membuat orang tampak seperti boneka kertas 2D
    Saya tidak tahu apakah model ini benar-benar bisa menampilkan kedalaman yang meyakinkan, tapi absennya wajah manusia terasa cukup bermakna

  • Ini dibuat oleh Apple, tapi hanya untuk GPU CUDA dokumentasi terkait

    • Menariknya, model Apple sendiri tidak berjalan di MPS
      Sepertinya harus menunggu beberapa tahun
    • Output Gaussian splat tetap bisa dihasilkan di CPU
      Dari semua repositori AI yang pernah saya coba, ini salah satu yang paling mudah dijalankan
    • Versi modifikasinya ada di sini
    • Batasan ini hanya berlaku untuk rendering video
      Modelnya sendiri berjalan di GPU, CPU, dan MPS
    • Modelnya bekerja tanpa CUDA
      Hasilnya berupa file .ply yang bisa dimasukkan ke viewer SparkJS
      CUDA hanya diperlukan untuk rendering video side-scroll
  • Intinya adalah “menghasilkan representasi 3D realistis dari satu foto dalam waktu kurang dari 1 detik”

  • Fitur Spatial Scene di aplikasi Apple Photos juga bekerja dengan cara serupa
    video demo

    • Tetapi hasilnya sering membuat ruang yang buram dan tidak alami
      Ada masa ketika content-aware fill di Photoshop justru terasa lebih baik
  • Apakah ada file sampel Gaussian splat?

    • Saya mengunggah hasil pengujian saya ke repositori ini
      Namun, karena contohnya hanya satu, sulit untuk digeneralisasi
  • Hasilnya memang mengesankan, tapi terasa terlalu tajam dan artifisial

    • Saya pribadi suka hasil TMPI maupun SHARP
      Hanya saja TMPI selalu terlihat lebih terang, jadi saya tidak tahu mana yang lebih akurat