- Model bahasa skala besar dapat menjalankan tugas yang kompleks, tetapi agar penalaran umum di dunia nyata seperti pada masalah robotika menjadi mungkin, model perlu memiliki landasan
- Diusulkan EMLM untuk membangun keterkaitan antara kata dan persepsi (percepts) dengan langsung mengintegrasikan modalitas sensor berkelanjutan dari dunia nyata ke dalam model bahasa
- Memproses masukan berupa kalimat multimodal yang menggabungkan visual, estimasi status berkelanjutan, dan encoding input teks
- "Tolong ambilkan rice chips dari laci": dapat melakukan rangkaian tindakan hingga bergerak ke laci, membuka laci, mencari dan mengambilnya, menutup laci, lalu membawanya. Bahkan jika di tengah jalan sedikit diganggu manusia, model dapat mencoba lagi
- PaLM-E 562B, model bahasa terbesar, + OK-VQA (dataset untuk visual question answering)
1 komentar
Apa itu Embodied AI?