PaLM-E: Model Bahasa Multimodal Berwujud

xguru · 2023-03-08T12:11:57+09:00

Model bahasa skala besar dapat menjalankan tugas yang kompleks, tetapi agar penalaran umum di dunia nyata seperti pada masalah robotika menjadi mungkin, model perlu memiliki landasan Diusulkan EMLM untuk membangun keterkaitan antara kata dan persepsi (percepts) dengan langsung mengintegrasikan modalitas sensor berkelanjutan dari dunia nyata ke dalam model bahasa Memproses masukan berupa kalimat multimodal yang menggabungkan visual, estimasi status berkelanjutan, dan encoding input teks "Tolong ambilkan rice chips dari laci": dapat melakukan rangkaian tindakan hingga bergerak ke laci, membuka laci, mencari dan mengambilnya, menutup laci, lalu membawanya. Bahkan jika di tengah jalan sedikit diganggu manusia, model dapat mencoba lagi PaLM-E 562B, model bahasa terbesar, + OK-VQA (dataset untuk visual question answering)

(palm-e.github.io)

15 poin oleh xguru 2023-03-08 | 1 komentar | Bagikan ke WhatsApp

Model bahasa skala besar dapat menjalankan tugas yang kompleks, tetapi agar penalaran umum di dunia nyata seperti pada masalah robotika menjadi mungkin, model perlu memiliki landasan
Diusulkan EMLM untuk membangun keterkaitan antara kata dan persepsi (percepts) dengan langsung mengintegrasikan modalitas sensor berkelanjutan dari dunia nyata ke dalam model bahasa
Memproses masukan berupa kalimat multimodal yang menggabungkan visual, estimasi status berkelanjutan, dan encoding input teks
- "Tolong ambilkan rice chips dari laci": dapat melakukan rangkaian tindakan hingga bergerak ke laci, membuka laci, mencari dan mengambilnya, menutup laci, lalu membawanya. Bahkan jika di tengah jalan sedikit diganggu manusia, model dapat mencoba lagi
PaLM-E 562B, model bahasa terbesar, + OK-VQA (dataset untuk visual question answering)

1 komentar

xguru 2023-03-08

Apa itu Embodied AI?

Ini adalah bidang yang menciptakan agen dalam lingkungan virtual 3D yang disebut simulator (Simulator) untuk dilatih dengan menjalankan berbagai tugas (Task), lalu mentransfernya ke mesin di dunia nyata seperti robot (Sim2Real) agar dapat menjalankan tugas tertentu dengan baik di dunia nyata juga.

PaLM-E: Model Bahasa Multimodal Berwujud

Bacaan terkait

1 komentar