- SHARP adalah model yang menerima satu gambar sebagai input lalu mengubahnya menjadi representasi Gaussian 3D untuk menghasilkan tampilan 3D yang realistis
- Memprediksi parameter adegan 3D dengan satu inferensi jaringan saraf dalam waktu kurang dari 1 detik pada GPU standar
- Representasi 3D yang dihasilkan dapat dirender secara real-time dan mendukung pergerakan kamera metrik termasuk skala absolut
- Pada berbagai dataset, mencapai peningkatan LPIPS 25–34% dan DISTS 21–43%, serta kecepatan sintesis tiga digit lebih cepat dibanding model sebelumnya
- Dirilis sebagai open source, sehingga developer dapat menjalankan prediksi dan rendering berbasis CLI secara langsung dan menghubungkannya dengan berbagai renderer 3D
Ringkasan SHARP
- SHARP (Sharp Monocular View Synthesis) adalah pendekatan untuk menghasilkan tampilan 3D fotorealistis dari satu foto
- Mengestimasi parameter representasi Gaussian 3D dengan metode regresi berdasarkan gambar input
- Mencapai waktu pemrosesan kurang dari 1 detik hanya dengan satu feedforward pass pada GPU standar
- Representasi Gaussian 3D yang dihasilkan dapat dirender secara real-time dan menyediakan gambar resolusi tinggi dari sudut pandang sekitar
- Representasinya memiliki struktur metrik dengan skala absolut, sehingga mendukung pergerakan kamera nyata
Kinerja dan generalisasi
- Hasil eksperimen menunjukkan SHARP memiliki performa generalisasi zero-shot pada berbagai dataset
- Dibanding model dengan performa terbaik sebelumnya, terjadi penurunan LPIPS 25–34% dan DISTS 21–43%
- Waktu sintesis dipangkas tiga digit, yakni pemrosesan sekitar 1000 kali lebih cepat dibanding sebelumnya
Instalasi dan penggunaan
- Dapat dijalankan pada lingkungan Python 3.13, dengan dependensi diinstal melalui
pip install -r requirements.txt
- Prediksi dapat dijalankan dari command line interface (CLI) seperti berikut
sharp predict -i input_path -o output_path
- Saat pertama kali dijalankan, checkpoint model akan diunduh otomatis dan disimpan ke cache lokal
- Jika diunduh manual, bisa ditentukan dengan opsi
-c
- Hasil output disimpan sebagai file
.ply dalam format 3D Gaussian Splat (3DGS) dan kompatibel dengan renderer 3DGS publik
Fitur rendering
- Pada lingkungan GPU CUDA, rendering video dapat dilakukan mengikuti lintasan kamera
- Gunakan opsi
--render untuk menjalankan prediksi dan rendering secara bersamaan
- Atau gunakan hasil antara (
.ply) untuk menjalankan rendering secara terpisah
- Mengikuti sistem koordinat OpenCV (x ke kanan, y ke bawah, z ke depan), dan saat memakai renderer eksternal perlu koreksi skala dan rotasi
Evaluasi dan referensi
- Hasil evaluasi kuantitatif dan kualitatif tercantum dalam paper
- Contoh video perbandingan dapat dilihat di halaman proyek
Lisensi dan sitasi
- Kode dan model dapat digunakan sesuai ketentuan pada file LICENSE dan LICENSE_MODEL
- Untuk sitasi riset, lihat paper arXiv “Sharp Monocular View Synthesis in Less Than a Second (2025)”
- Codebase dibangun di atas berbagai kontribusi open source
1 komentar
Komentar Hacker News
Di HN, proyek SHARP milik Apple kembali menjadi topik hangat
Diskusi terkait juga pernah muncul di thread sebelumnya
Materi resmi SHARP dapat dilihat di halaman proyek dan makalah (arXiv)
Di lisensi model tertulis “khusus untuk tujuan penelitian”, sehingga pada praktiknya ini bukan open source
Seorang pengguna mengatakan ia sudah mem-fork proyek agar bisa dirender di MPS, lalu membagikan repositori GitHub miliknya
Seseorang meninggalkan komentar bercanda, menyebut ini sebagai “hari besar bagi porno VR”
Model hanya melakukan inferensi pada satu sumbu, resolusinya juga terbatas pada 768px + 2 layer, dan pemrosesan real-time juga tidak memungkinkan
Ia menambahkan bahwa tahun ini justru inovasi yang lebih besar terjadi di sisi pengeditan gambar dan model video
Disebutkan bahwa “setiap kali perusahaan besar merilis model, perdebatan definisi open source selalu terulang”, sambil menyoroti bahwa konsep ‘source’ pada model AI berbeda dari perangkat lunak
Dianalisis bahwa Apple tampaknya ingin memperoleh kredibilitas akademik sekaligus mempertahankan opsi komersial
sambil menilai bahwa kekuatan sejati Apple ada pada kemampuan teknologi ini untuk mengalami foto lama dalam VR
Disebutkan bahwa “orang sering memotret objek yang sama berkali-kali, sehingga pada dasarnya itu menyediakan data gambar stereoskopis”
Seorang pengguna mengatakan ia enggan mencoba karena tidak suka Conda
uvtanpa CondaSeorang pengguna mengatakan saat liburan ia sedang bereksperimen dengan proyek terkait seperti StereoCrafter dan GeometryCrafter,
dan jika diterapkan ke video, hal itu jauh lebih sulit dan memakan komputasi karena masalah temporal consistency,
tetapi ketika ia mencoba melakukan spatialize pada video rumahan lama dari masa Perang Korea, hasilnya bekerja sangat mengejutkan
Tautan StereoCrafter, tautan GeometryCrafter