- Menerjemahkan manual perakitan visual Lego yang terdiri dari gambar 2D agar dapat dipahami oleh mesin
- Dipandang sebagai tugas prediksi (
prediction) berurutan, di mana model membaca manual langkah demi langkah, menemukan komponen yang akan ditambahkan ke bentuk saat ini, lalu menyimpulkan bentuk 3D
- Diperlukan tugas seperti masalah pencocokan 2D-3D antara gambar 2D pada manual dan objek 3D nyata, serta inferensi bentuk objek 3D yang belum pernah dilihat (
Unseen)
- Mengajukan MEPNet (Manual-to-Executable-Plan Network), sebuah framework berbasis pembelajaran untuk menyelesaikan hal ini
- Ide utamanya adalah modul deteksi keypoint 2D, algoritme proyeksi 2D-3D untuk prediksi presisi tinggi, serta generalisasi yang kuat (
Generalization) terhadap komponen Unseen
1 komentar
Ini mengingatkan saya pada startup bernama brickit yang, jika memotret tumpukan LEGO, menggunakan AI untuk mengklasifikasikan komponennya lalu menyarankan model LEGO yang bisa dibuat.