- Menghadirkan Gemini 2.0 ke bidang robotika dengan mengumumkan model vision-language-action (VLA) dan model ER yang memahami ruang
- Google DeepMind telah mengembangkan kemampuan penalaran multimodal yang memanfaatkan teks, gambar, audio, dan video untuk menyelesaikan masalah kompleks
- Namun, hingga kini kemampuan tersebut terbatas pada lingkungan digital
- Agar AI berguna di dunia fisik, AI memerlukan kemampuan "penalaran berwujud (embodied reasoning)" untuk memahami dan merespons lingkungan seperti manusia, serta menjalankan tugas dengan aman
- Sejalan dengan itu, dua model baru diumumkan
- Gemini Robotics: model vision-language-action (VLA) berbasis Gemini 2.0 yang dapat langsung mengendalikan robot
- Gemini Robotics-ER: model yang menghadirkan pemahaman spasial dan kemampuan kontrol robot yang ditingkatkan
- Bekerja sama dengan Apptronik untuk mengembangkan robot humanoid generasi berikutnya
- Sedang meningkatkan performa model bersama sejumlah kecil pengguna uji tepercaya
Gemini Robotics: model vision-language-action paling maju
1. Kemampuan generalisasi (Generality)
- Dapat beradaptasi dalam situasi baru dan menjalankan beragam tugas
- Menunjukkan performa unggul pada objek, perintah, dan lingkungan baru
- Menurut laporan teknis, performa generalisasinya meningkat lebih dari 2x dibanding model VLA sebelumnya
2. Kemampuan interaksi (Interactivity)
- Dapat memahami dan merespons perintah bahasa alami
- Mendukung berbagai bahasa dan perintah bahasa sehari-hari
- Dapat merespons perubahan lingkungan secara real time dan menyesuaikan tindakan
- Bahkan jika objek tergelincir dari tangan atau posisinya berubah, robot dapat segera merencanakan ulang dan melanjutkan tugas
3. Ketangkasan (Dexterity)
- Memperkuat kemampuan untuk melakukan tugas-tugas presisi
- Dapat menjalankan tugas kompleks multi-langkah (misalnya melipat kertas, memasukkan camilan ke kantong zip, dan sebagainya)
4. Dapat diterapkan pada berbagai bentuk robot (Multiple embodiments)
- Dapat diterapkan dengan mudah pada berbagai jenis robot
- Telah dipastikan berjalan pada robot berbasis ALOHA 2, Franka, serta robot humanoid Apollo
Gemini Robotics-ER: kemampuan pemahaman ruang yang diperkuat
- Performa persepsi spasial dan deteksi 3D Gemini 2.0 ditingkatkan secara signifikan
- Robot dapat mengenali posisi objek dan memanipulasinya dengan cara yang sesuai
- Digabungkan dengan kemampuan menghasilkan kode → robot dapat membuat cara baru untuk menyelesaikan tugas secara langsung
- Tingkat keberhasilannya meningkat 2 hingga 3 kali dibanding Gemini 2.0
- Contoh demonstrasi: mengenali gagang cangkir kopi lalu mendekat melalui jalur yang aman untuk mengangkatnya
Strategi penguatan keamanan AI dan robot
- Berfokus pada penyelesaian masalah keselamatan fisik pada robot
- Robot menjalankan langkah-langkah keselamatan tradisional seperti pencegahan tabrakan, pembatasan gaya kontak, dan menjaga stabilitas dinamis
- Gemini Robotics-ER menilai apakah suatu tugas aman untuk dijalankan saat ada kekhawatiran keselamatan, lalu merespons dengan tepat
- Merilis dataset ASIMOV baru → bertujuan mengevaluasi dan meningkatkan keamanan perilaku robot
- Bekerja sama dengan komite tanggung jawab dan keselamatan internal serta para ahli eksternal untuk menangani isu etika
Mitra utama dan rencana ke depan
- Bekerja sama dengan Apptronik untuk mengembangkan robot humanoid
- Agile Robots, Agility Robots, Boston Dynamics, dan Enchanted Tools sedang menguji Gemini Robotics-ER
- Ke depan, perusahaan berencana terus mendorong perkembangan teknologi AI dan robot
Tautan terkait
1 komentar
Komentar Hacker News