5 poin oleh xguru 2022-07-29 | 1 komentar | Bagikan ke WhatsApp
  • Menerjemahkan manual perakitan visual Lego yang terdiri dari gambar 2D agar dapat dipahami oleh mesin
  • Dipandang sebagai tugas prediksi (prediction) berurutan, di mana model membaca manual langkah demi langkah, menemukan komponen yang akan ditambahkan ke bentuk saat ini, lalu menyimpulkan bentuk 3D
  • Diperlukan tugas seperti masalah pencocokan 2D-3D antara gambar 2D pada manual dan objek 3D nyata, serta inferensi bentuk objek 3D yang belum pernah dilihat (Unseen)
  • Mengajukan MEPNet (Manual-to-Executable-Plan Network), sebuah framework berbasis pembelajaran untuk menyelesaikan hal ini
  • Ide utamanya adalah modul deteksi keypoint 2D, algoritme proyeksi 2D-3D untuk prediksi presisi tinggi, serta generalisasi yang kuat (Generalization) terhadap komponen Unseen