6 poin oleh GN⁺ 2025-12-28 | 1 komentar | Bagikan ke WhatsApp
  • SHARP adalah model yang menerima satu gambar sebagai input lalu mengubahnya menjadi representasi Gaussian 3D untuk menghasilkan tampilan 3D yang realistis
  • Memprediksi parameter adegan 3D dengan satu inferensi jaringan saraf dalam waktu kurang dari 1 detik pada GPU standar
  • Representasi 3D yang dihasilkan dapat dirender secara real-time dan mendukung pergerakan kamera metrik termasuk skala absolut
  • Pada berbagai dataset, mencapai peningkatan LPIPS 25–34% dan DISTS 21–43%, serta kecepatan sintesis tiga digit lebih cepat dibanding model sebelumnya
  • Dirilis sebagai open source, sehingga developer dapat menjalankan prediksi dan rendering berbasis CLI secara langsung dan menghubungkannya dengan berbagai renderer 3D

Ringkasan SHARP

  • SHARP (Sharp Monocular View Synthesis) adalah pendekatan untuk menghasilkan tampilan 3D fotorealistis dari satu foto
    • Mengestimasi parameter representasi Gaussian 3D dengan metode regresi berdasarkan gambar input
    • Mencapai waktu pemrosesan kurang dari 1 detik hanya dengan satu feedforward pass pada GPU standar
  • Representasi Gaussian 3D yang dihasilkan dapat dirender secara real-time dan menyediakan gambar resolusi tinggi dari sudut pandang sekitar
  • Representasinya memiliki struktur metrik dengan skala absolut, sehingga mendukung pergerakan kamera nyata

Kinerja dan generalisasi

  • Hasil eksperimen menunjukkan SHARP memiliki performa generalisasi zero-shot pada berbagai dataset
  • Dibanding model dengan performa terbaik sebelumnya, terjadi penurunan LPIPS 25–34% dan DISTS 21–43%
  • Waktu sintesis dipangkas tiga digit, yakni pemrosesan sekitar 1000 kali lebih cepat dibanding sebelumnya

Instalasi dan penggunaan

  • Dapat dijalankan pada lingkungan Python 3.13, dengan dependensi diinstal melalui pip install -r requirements.txt
  • Prediksi dapat dijalankan dari command line interface (CLI) seperti berikut
    • sharp predict -i input_path -o output_path
    • Saat pertama kali dijalankan, checkpoint model akan diunduh otomatis dan disimpan ke cache lokal
    • Jika diunduh manual, bisa ditentukan dengan opsi -c
  • Hasil output disimpan sebagai file .ply dalam format 3D Gaussian Splat (3DGS) dan kompatibel dengan renderer 3DGS publik

Fitur rendering

  • Pada lingkungan GPU CUDA, rendering video dapat dilakukan mengikuti lintasan kamera
    • Gunakan opsi --render untuk menjalankan prediksi dan rendering secara bersamaan
    • Atau gunakan hasil antara (.ply) untuk menjalankan rendering secara terpisah
  • Mengikuti sistem koordinat OpenCV (x ke kanan, y ke bawah, z ke depan), dan saat memakai renderer eksternal perlu koreksi skala dan rotasi

Evaluasi dan referensi

  • Hasil evaluasi kuantitatif dan kualitatif tercantum dalam paper
  • Contoh video perbandingan dapat dilihat di halaman proyek

Lisensi dan sitasi

  • Kode dan model dapat digunakan sesuai ketentuan pada file LICENSE dan LICENSE_MODEL
  • Untuk sitasi riset, lihat paper arXiv “Sharp Monocular View Synthesis in Less Than a Second (2025)”
  • Codebase dibangun di atas berbagai kontribusi open source

1 komentar

 
GN⁺ 2025-12-28
Komentar Hacker News
  • Di HN, proyek SHARP milik Apple kembali menjadi topik hangat
    Diskusi terkait juga pernah muncul di thread sebelumnya

    • Tulisan yang diperkenalkan dengan judul “SHARP, an approach to photorealistic view synthesis from a single image” dibagikan ulang
    • Disebutkan bahwa panduan instalasi GitHub terkait AI tidak berjalan dengan baik. Sebagian besar mengasumsikan lingkungan pengembangan sudah disiapkan, sehingga hambatan masuk bagi pemula cukup tinggi
  • Materi resmi SHARP dapat dilihat di halaman proyek dan makalah (arXiv)

    • Seorang pengguna menyebut video demo Bradley jauh lebih mengesankan daripada halaman resmi
    • Pengguna lain mengatakan para penulis tampaknya semuanya berasal dari luar negeri, lalu menyampaikan rasa penasaran tentang perubahan komposisi tenaga kerja STEM
  • Di lisensi model tertulis “khusus untuk tujuan penelitian”, sehingga pada praktiknya ini bukan open source

    • Di README juga tidak ada penyebutan open source, hanya disebut dibangun di atas fondasi open source
    • Ditunjukkan bahwa akibat Meta mengaburkan makna “open source”, sekarang muncul kecenderungan menganggap sekadar bobot dibuka = open source
    • Seorang pengguna berkata, “bobot mungkin bukan objek hak cipta,” sehingga inti persoalannya adalah kekuatan hukum yang benar-benar bisa ditegakkan Apple
    • Tampaknya kebingungan muncul karena lisensi utama tidak mencantumkan pembatasan
    • Seorang pengguna mengatakan akan “meneliti apakah ini bisa dipakai untuk membuat produk yang menguntungkan”
  • Seorang pengguna mengatakan ia sudah mem-fork proyek agar bisa dirender di MPS, lalu membagikan repositori GitHub miliknya

    • Pengguna lain berkata “terlihat bagus” dan menyampaikan terima kasih
  • Seseorang meninggalkan komentar bercanda, menyebut ini sebagai “hari besar bagi porno VR”

    • Menanggapi itu, pengguna lain menjelaskan bahwa pada kenyataannya batas kualitas konten VR cukup jelas.
      Model hanya melakukan inferensi pada satu sumbu, resolusinya juga terbatas pada 768px + 2 layer, dan pemrosesan real-time juga tidak memungkinkan
      Ia menambahkan bahwa tahun ini justru inovasi yang lebih besar terjadi di sisi pengeditan gambar dan model video
    • Pengguna lain bercanda bahwa istilah “Gaussian splat” terdengar memiliki makna yang sangat berbeda
  • Disebutkan bahwa “setiap kali perusahaan besar merilis model, perdebatan definisi open source selalu terulang”, sambil menyoroti bahwa konsep ‘source’ pada model AI berbeda dari perangkat lunak
    Dianalisis bahwa Apple tampaknya ingin memperoleh kredibilitas akademik sekaligus mempertahankan opsi komersial

    • Pengguna lain berkata, “teknologinya sendiri luar biasa, sayang sekali perdebatan lisensi justru mendominasi bagian atas”,
      sambil menilai bahwa kekuatan sejati Apple ada pada kemampuan teknologi ini untuk mengalami foto lama dalam VR
    • Pengguna lain lagi bercanda bahwa ungkapan “which isn’t unsurprising” terlalu rumit
    • Lelucon lanjutan juga muncul, semacam “tidak mengejutkan bahwa itu tidak mengejutkan”
  • Disebutkan bahwa “orang sering memotret objek yang sama berkali-kali, sehingga pada dasarnya itu menyediakan data gambar stereoskopis

    • Pengguna lain menambahkan bahwa frame dari “Live Photo” juga bisa dimanfaatkan
  • Seorang pengguna mengatakan ia enggan mencoba karena tidak suka Conda

    • Pengguna lain merekomendasikan pixi, dan membagikan perintah instalasi spesifik bahwa sebenarnya cukup dengan Python 3.13 dan uv tanpa Conda
    • Pengguna lain lagi setuju, mengatakan “itu bukan rasa tidak suka yang irasional”
  • Seorang pengguna mengatakan saat liburan ia sedang bereksperimen dengan proyek terkait seperti StereoCrafter dan GeometryCrafter,
    dan jika diterapkan ke video, hal itu jauh lebih sulit dan memakan komputasi karena masalah temporal consistency,
    tetapi ketika ia mencoba melakukan spatialize pada video rumahan lama dari masa Perang Korea, hasilnya bekerja sangat mengejutkan
    Tautan StereoCrafter, tautan GeometryCrafter

    • Pengguna lain menjawab, “Aku benar-benar ingin melihat contoh itu”