- Tim riset AI Apple mengembangkan model baru bernama Depth Pro yang dapat secara signifikan memajukan cara mesin memahami kedalaman
- Model ini berpotensi menghadirkan inovasi di berbagai industri, mulai dari augmented reality hingga mobil otonom
Fitur utama Depth Pro
- Menghasilkan peta kedalaman 3D yang detail dari satu gambar 2D dengan kecepatan sangat tinggi, tanpa bergantung pada data kamera yang sebelumnya diperlukan
- Menjadi lompatan besar di bidang monocular depth estimation
- Dapat diterapkan secara luas pada bidang yang membutuhkan pemahaman ruang secara real-time
Estimasi kedalaman yang cepat dan akurat tanpa metadata
- Monocular depth estimation secara tradisional merupakan tugas yang sulit karena membutuhkan banyak gambar atau metadata seperti panjang fokus
- Namun, Depth Pro melewati kebutuhan tersebut dan menghasilkan peta kedalaman resolusi tinggi hanya dalam 0,3 detik pada GPU standar
- Model ini menghasilkan peta 2,25 megapiksel dengan kejernihan luar biasa, serta menangkap detail halus seperti rambut atau tanaman yang mudah terlewat oleh metode lain
- Tim peneliti menjelaskan, "Karakteristik ini dimungkinkan oleh sejumlah kontribusi teknis, termasuk vision transformer multi-skala yang efisien untuk dense prediction"
- Arsitektur ini dapat memproses konteks keseluruhan gambar dan detail halus secara bersamaan, sehingga menjadi lompatan besar dibanding model sebelumnya yang lambat dan kurang akurat
Keunggulan metric depth dan zero-shot learning
- Hal yang benar-benar membedakan Depth Pro adalah fitur "metric depth" yang dapat memperkirakan baik kedalaman relatif maupun kedalaman absolut
- Ini berarti model dapat memberikan nilai pengukuran nyata, yang sangat penting untuk aplikasi seperti augmented reality (AR), di mana objek virtual harus ditempatkan secara akurat di ruang fisik
- Depth Pro tidak memerlukan pelatihan ekstensif pada dataset khusus domain untuk menghasilkan prediksi yang akurat, yang disebut sebagai "zero-shot learning"
- Hal ini membuat model sangat serbaguna sehingga bisa diterapkan pada berbagai gambar tanpa data spesifik kamera yang biasanya dibutuhkan oleh model estimasi kedalaman
- Para penulis menjelaskan, "Depth Pro menghasilkan peta metric depth berskala absolut untuk gambar arbitrer di 'alam liar' tanpa metadata seperti parameter intrinsik kamera"
- Fleksibilitas ini membuka berbagai kemungkinan, mulai dari meningkatkan pengalaman AR hingga memperbaiki kemampuan deteksi dan penghindaran rintangan pada mobil otonom
Contoh penerapan di dunia nyata
- Dalam e-commerce, konsumen dapat mengarahkan kamera smartphone ke sebuah ruangan untuk melihat bagaimana furnitur akan cocok di dalamnya
- Dari satu kamera pada mobil otonom, peta kedalaman resolusi tinggi real-time dapat dihasilkan untuk membantu pemahaman lingkungan berkendara dan meningkatkan keselamatan
- Tim peneliti menekankan, "Idealnya, dalam rezim zero-shot ini, model harus menghasilkan peta metric depth yang secara akurat merekonstruksi bentuk objek, tata letak adegan, dan skala absolut," sambil menyoroti potensi penghematan waktu dan biaya dalam pelatihan model AI tradisional
Menyelesaikan tantangan sulit dalam estimasi kedalaman
- Salah satu tantangan tersulit dalam estimasi kedalaman adalah menangani fenomena yang dikenal sebagai "flying pixels"
- "Flying pixels" merujuk pada piksel yang tampak seolah melayang di udara akibat kesalahan pemetaan kedalaman
- Depth Pro menangani masalah ini secara langsung sehingga sangat efektif untuk aplikasi seperti rekonstruksi 3D atau lingkungan virtual, di mana akurasi sangat penting
- Selain itu, Depth Pro menunjukkan performa unggul dalam pelacakan batas, dan kemampuannya menggambarkan objek serta tepinya dengan jelas melampaui model sebelumnya
- Tim peneliti mengklaim bahwa Depth Pro "mengungguli sistem lain dalam akurasi batas dengan faktor kelipatan," yang sangat penting untuk aplikasi yang memerlukan segmentasi objek presisi seperti image matting atau pencitraan medis
Rilis open source dan skalabilitas
- Apple merilis Depth Pro sebagai open source untuk mempercepat adopsi teknologi ini
- Kode dan bobot model pra-latih tersedia di GitHub sehingga developer dan peneliti dapat dengan mudah bereksperimen dan meningkatkannya
- Apple juga mendorong eksplorasi potensi teknologi ini di berbagai bidang seperti robotika, manufaktur, dan layanan kesehatan
Masa depan AI untuk pemahaman kedalaman
- Depth Pro menetapkan standar baru untuk kecepatan dan akurasi di bidang monocular depth estimation
- Kemampuannya menghasilkan peta kedalaman real-time berkualitas tinggi dari satu gambar akan berdampak besar pada berbagai industri yang bergantung pada pemahaman ruang
- Dengan rilis open source, Depth Pro diperkirakan akan menjadi teknologi inti di berbagai industri, mulai dari kendaraan otonom hingga augmented reality
5 komentar
Entah kenapa... rasanya yang tertulis seharusnya Meta, bukan Apple..
Mengingatkan saya pada Microsoft Photosynth (2006)
Setahu saya, di Tesla AI mereka memanfaatkan multi-view dan NeRF untuk mengimplementasikan model occupancy network guna menyelesaikan masalah depth perception seperti ini. Jadi saya jadi penasaran bagaimana perusahaan komersial semacam ini akan memanfaatkan model tersebut dan terus meningkatkannya.
wow..
Saat LLM sedang sangat panas, mereka diam sekali sampai bikin saya bertanya-tanya sebenarnya sedang apa, ternyata sepertinya mereka mendalami bidang ini.