Bagaimana Google mengembangkan model Gemini Robotics
(blog.google)- Google DeepMind mengembangkan Gemini Robotics, model AI multimodal generasi berikutnya untuk robot yang mampu melakukan tugas fisik
- Model ini adalah versi Gemini 2.0 yang di-fine-tune dengan data khusus robot agar dapat melakukan tidak hanya teks, video, dan audio, tetapi juga tindakan nyata
- Robot dapat melakukan berbagai tugas seperti membuat salad, bermain tic-tac-toe, melipat kertas, dan mengemas bekal makan siang
Contoh pengujian nyata dan verifikasi kemampuannya
- Berbagai permintaan tugas diberikan kepada robot dua lengan ALOHA untuk riset
- Contoh: memasukkan pena ke dalam sepatu, melakukan dunk bola basket, dan sebagainya
- Meskipun objek dan tugas tersebut belum pernah dilihat sebelumnya, robot memahami permintaan dan berhasil melaksanakannya pada percobaan pertama
- Berbeda dari model sebelumnya, model ini dapat memahami dan mengeksekusi perintah fisik yang kompleks dalam bahasa alami
Karakteristik utama Gemini Robotics
- Memiliki fleksibilitas tinggi, kemampuan interaksi, dan kemampuan generalisasi
- Dapat beradaptasi dengan objek, lingkungan, dan instruksi baru tanpa pelatihan tambahan
- Menjadi dasar untuk mewujudkan AI dan robot sebagai satu agen terpadu
- Memberikan kemampuan persepsi, penilaian, dan tindakan yang mirip manusia
Pengenalan model penyusunnya
-
Gemini Robotics-ER (Embodied Reasoning):
- Berbasis Gemini 2.0 Flash
- Menghasilkan dan menjalankan kode melalui pengenalan objek, pelacakan posisi, prediksi lintasan gerak, pengaturan grip, dan sebagainya
- Sedang dibuka untuk penguji tepercaya dan mitra
-
Gemini Robotics:
- Model terpadu vision-language-action
- Mampu memahami adegan, berinteraksi dengan pengguna, dan menjalankan tugas multi-tahap
- Mencatat kinerja ketangkasan terbaik mutakhir bahkan pada tugas yang memerlukan manipulasi kompleks dan penalaran spasial
Kemampuan teknis yang spesifik
- Deteksi objek 2D dan 3D
- Fungsi pointing (menunjuk)
- Menemukan titik korespondensi dari beberapa sudut pandang
- Memiliki kemampuan manipulasi dengan memanfaatkan beragam informasi visual
Pendekatan pelatihan dan keunggulannya
- Alih-alih pelatihan berulang untuk satu tugas seperti pendekatan industri konvensional, dipilih pembelajaran luas melalui beragam tugas
- Hasilnya, kemampuan generalisasi muncul secara alami
- Dapat diterapkan pada berbagai bentuk robot
- Contoh: ALOHA (untuk riset), Apollo dari Apptronik (robot humanoid)
Dukungan untuk berbagai bentuk robot
- Berbagai jenis robot menjalankan beragam tugas seperti mengemas bekal, menghapus whiteboard, dan mengambil benda kecil
- Intinya adalah satu model dapat beradaptasi ke banyak robot
Visi ke depan
- Diharapkan berguna di bidang industri yang membutuhkan pekerjaan presisi atau berada di lingkungan yang tidak cocok bagi manusia
- Berpotensi berkembang menjadi robot yang membantu di lingkungan berpusat pada manusia seperti rumah
- Dalam kehidupan sehari-hari, robot dapat menjadi antarmuka lain untuk berinteraksi dengan AI
1 komentar
Komentar Hacker News