Bagaimana Google mengembangkan model Gemini Robotics

(blog.google)

6 poin oleh GN⁺ 2025-04-04 | 1 komentar | Bagikan ke WhatsApp

Google DeepMind mengembangkan Gemini Robotics, model AI multimodal generasi berikutnya untuk robot yang mampu melakukan tugas fisik
Model ini adalah versi Gemini 2.0 yang di-fine-tune dengan data khusus robot agar dapat melakukan tidak hanya teks, video, dan audio, tetapi juga tindakan nyata
Robot dapat melakukan berbagai tugas seperti membuat salad, bermain tic-tac-toe, melipat kertas, dan mengemas bekal makan siang

Contoh pengujian nyata dan verifikasi kemampuannya

Berbagai permintaan tugas diberikan kepada robot dua lengan ALOHA untuk riset
- Contoh: memasukkan pena ke dalam sepatu, melakukan dunk bola basket, dan sebagainya
- Meskipun objek dan tugas tersebut belum pernah dilihat sebelumnya, robot memahami permintaan dan berhasil melaksanakannya pada percobaan pertama
Berbeda dari model sebelumnya, model ini dapat memahami dan mengeksekusi perintah fisik yang kompleks dalam bahasa alami

Karakteristik utama Gemini Robotics

Memiliki fleksibilitas tinggi, kemampuan interaksi, dan kemampuan generalisasi
- Dapat beradaptasi dengan objek, lingkungan, dan instruksi baru tanpa pelatihan tambahan
Menjadi dasar untuk mewujudkan AI dan robot sebagai satu agen terpadu
Memberikan kemampuan persepsi, penilaian, dan tindakan yang mirip manusia

Pengenalan model penyusunnya

Gemini Robotics-ER (Embodied Reasoning):
- Berbasis Gemini 2.0 Flash
- Menghasilkan dan menjalankan kode melalui pengenalan objek, pelacakan posisi, prediksi lintasan gerak, pengaturan grip, dan sebagainya
- Sedang dibuka untuk penguji tepercaya dan mitra
Gemini Robotics:
- Model terpadu vision-language-action
- Mampu memahami adegan, berinteraksi dengan pengguna, dan menjalankan tugas multi-tahap
- Mencatat kinerja ketangkasan terbaik mutakhir bahkan pada tugas yang memerlukan manipulasi kompleks dan penalaran spasial

Kemampuan teknis yang spesifik

Deteksi objek 2D dan 3D
Fungsi pointing (menunjuk)
Menemukan titik korespondensi dari beberapa sudut pandang
Memiliki kemampuan manipulasi dengan memanfaatkan beragam informasi visual

Pendekatan pelatihan dan keunggulannya

Alih-alih pelatihan berulang untuk satu tugas seperti pendekatan industri konvensional, dipilih pembelajaran luas melalui beragam tugas
Hasilnya, kemampuan generalisasi muncul secara alami
Dapat diterapkan pada berbagai bentuk robot
- Contoh: ALOHA (untuk riset), Apollo dari Apptronik (robot humanoid)

Dukungan untuk berbagai bentuk robot

Berbagai jenis robot menjalankan beragam tugas seperti mengemas bekal, menghapus whiteboard, dan mengambil benda kecil
Intinya adalah satu model dapat beradaptasi ke banyak robot

Visi ke depan

Diharapkan berguna di bidang industri yang membutuhkan pekerjaan presisi atau berada di lingkungan yang tidak cocok bagi manusia
Berpotensi berkembang menjadi robot yang membantu di lingkungan berpusat pada manusia seperti rumah
Dalam kehidupan sehari-hari, robot dapat menjadi antarmuka lain untuk berinteraksi dengan AI

1 komentar

GN⁺ 2025-04-04

Komentar Hacker News

Mereka mungkin bisa melakukan itu, tetapi Gemini Assistant di ponsel Pixel masih gagal mengatur timer atau menambahkan item ke daftar belanja. (Di Google Assistant ini bekerja dengan baik)
Tidak ada penjelasan sama sekali tentang "bagaimana", tetapi jika fitur ini bekerja bahkan setengah andal sekalipun, dampaknya akan sekitar 100 kali lebih besar daripada ChatGPT
Perkembangan AI dan robotika sangat menarik. Dengan sistem kompleks seperti Gemini, perusahaan kemungkinan harus bergantung pada tim spesialis untuk mewujudkan inovasi semacam ini
- Dengan mengalihdayakan peran tertentu seperti riset AI atau insinyur robotika, perusahaan dapat merekrut talenta kelas atas tanpa beban perekrutan pegawai tetap
- Menarik melihat bagaimana outsourcing dapat melengkapi litbang di industri canggih seperti robotika
- Saya penasaran bagaimana industri ini akan berubah, terutama dari sisi skalabilitas dan kecepatan masuk ke pasar
Pada akhirnya sepertinya seseorang akan membantu pekerjaan rumah
- Ah, bagus. Hanya saja, di balik itu semua ada tujuan militer, tetapi saya suka upaya untuk membuat kita berpikir bahwa mereka akan melipat cucian kita
"Ambil bola basket lalu lakukan dunk." Inilah killer use case yang sudah lama kita tunggu :)
Walaupun teknologi robot Google (perangkat lunak dan perangkat keras) mutakhir, saya ragu apakah mereka benar-benar bisa menjadikannya produk
- Ini tampak mirip dengan ketika mereka menjadi pelopor transformer tetapi kehilangan semua keunggulan kepada ChatGPT
- Sepertinya ada sesuatu yang membuat Google tidak mampu beralih secara efektif dari riset ke produk
- Jika Anda menganggap Waymo saat ini telah mencapai product-market fit, itu bisa menjadi contoh tandingan yang bagus, tetapi sulit menghilangkan kesan bahwa Google biasanya gagal meluncurkannya ke pasar, atau bahkan jika meluncurkannya, menyerah sebelum produk itu mapan
- Saya penasaran apakah ada yang punya pandangan atau wawasan kuat tentang upaya robotika mereka
Memikirkan kemungkinan robot semacam ini suatu hari digunakan di industri pertahanan itu menakutkan
- Jika robot bisa memahami perintah umum seperti "singkirkan penghapus", bayangkan perintah "habisi semua musuh"
Saya cuma penasaran, kalau diperintahkan membunuh seseorang, apa yang akan dilakukan? Apakah akan mengikuti hukum robotika?
April Mop!

Bagaimana Google mengembangkan model Gemini Robotics

Contoh pengujian nyata dan verifikasi kemampuannya

Karakteristik utama Gemini Robotics

Pengenalan model penyusunnya

Kemampuan teknis yang spesifik

Pendekatan pelatihan dan keunggulannya

Dukungan untuk berbagai bentuk robot

Visi ke depan

Bacaan terkait

1 komentar

Komentar Hacker News