Google DeepMind memperkenalkan Gemini Robotics

(deepmind.google)

4 poin oleh GN⁺ 2025-03-13 | 1 komentar | Bagikan ke WhatsApp

Menghadirkan Gemini 2.0 ke bidang robotika dengan mengumumkan model vision-language-action (VLA) dan model ER yang memahami ruang
Google DeepMind telah mengembangkan kemampuan penalaran multimodal yang memanfaatkan teks, gambar, audio, dan video untuk menyelesaikan masalah kompleks
Namun, hingga kini kemampuan tersebut terbatas pada lingkungan digital
Agar AI berguna di dunia fisik, AI memerlukan kemampuan "penalaran berwujud (embodied reasoning)" untuk memahami dan merespons lingkungan seperti manusia, serta menjalankan tugas dengan aman
Sejalan dengan itu, dua model baru diumumkan
- Gemini Robotics: model vision-language-action (VLA) berbasis Gemini 2.0 yang dapat langsung mengendalikan robot
- Gemini Robotics-ER: model yang menghadirkan pemahaman spasial dan kemampuan kontrol robot yang ditingkatkan
Bekerja sama dengan Apptronik untuk mengembangkan robot humanoid generasi berikutnya
Sedang meningkatkan performa model bersama sejumlah kecil pengguna uji tepercaya

Gemini Robotics: model vision-language-action paling maju

1. Kemampuan generalisasi (Generality)

Dapat beradaptasi dalam situasi baru dan menjalankan beragam tugas
Menunjukkan performa unggul pada objek, perintah, dan lingkungan baru
Menurut laporan teknis, performa generalisasinya meningkat lebih dari 2x dibanding model VLA sebelumnya

2. Kemampuan interaksi (Interactivity)

Dapat memahami dan merespons perintah bahasa alami
Mendukung berbagai bahasa dan perintah bahasa sehari-hari
Dapat merespons perubahan lingkungan secara real time dan menyesuaikan tindakan
Bahkan jika objek tergelincir dari tangan atau posisinya berubah, robot dapat segera merencanakan ulang dan melanjutkan tugas

3. Ketangkasan (Dexterity)

Memperkuat kemampuan untuk melakukan tugas-tugas presisi
Dapat menjalankan tugas kompleks multi-langkah (misalnya melipat kertas, memasukkan camilan ke kantong zip, dan sebagainya)

4. Dapat diterapkan pada berbagai bentuk robot (Multiple embodiments)

Dapat diterapkan dengan mudah pada berbagai jenis robot
Telah dipastikan berjalan pada robot berbasis ALOHA 2, Franka, serta robot humanoid Apollo

Gemini Robotics-ER: kemampuan pemahaman ruang yang diperkuat

Performa persepsi spasial dan deteksi 3D Gemini 2.0 ditingkatkan secara signifikan
Robot dapat mengenali posisi objek dan memanipulasinya dengan cara yang sesuai
Digabungkan dengan kemampuan menghasilkan kode → robot dapat membuat cara baru untuk menyelesaikan tugas secara langsung
Tingkat keberhasilannya meningkat 2 hingga 3 kali dibanding Gemini 2.0
Contoh demonstrasi: mengenali gagang cangkir kopi lalu mendekat melalui jalur yang aman untuk mengangkatnya

Strategi penguatan keamanan AI dan robot

Berfokus pada penyelesaian masalah keselamatan fisik pada robot
Robot menjalankan langkah-langkah keselamatan tradisional seperti pencegahan tabrakan, pembatasan gaya kontak, dan menjaga stabilitas dinamis
Gemini Robotics-ER menilai apakah suatu tugas aman untuk dijalankan saat ada kekhawatiran keselamatan, lalu merespons dengan tepat
Merilis dataset ASIMOV baru → bertujuan mengevaluasi dan meningkatkan keamanan perilaku robot
Bekerja sama dengan komite tanggung jawab dan keselamatan internal serta para ahli eksternal untuk menangani isu etika

Mitra utama dan rencana ke depan

Bekerja sama dengan Apptronik untuk mengembangkan robot humanoid
Agile Robots, Agility Robots, Boston Dynamics, dan Enchanted Tools sedang menguji Gemini Robotics-ER
Ke depan, perusahaan berencana terus mendorong perkembangan teknologi AI dan robot

Tautan terkait

1 komentar

GN⁺ 2025-03-13

Komentar Hacker News

Ada tautan ke playlist lengkap di YouTube yang berisi 20 demo video
Bertanya-tanya apakah tidak ada yang ingat bahwa demo Google Gemini yang mengesankan sebelumnya pernah dimanipulasi
Menganggap Hukum Robot Asimov adalah properti fiksi ilmiah yang menarik, tetapi jauh dari komputasi nyata
- Ternyata Asimov sudah lebih dulu menulis prompt LLM jauh sebelum zamannya
Jika pemilahan sampah menjadi lebih mudah dan cepat, efisiensi daur ulang bisa meningkat 100 kali lipat
- Sudah ada tempat yang melakukan itu, tetapi masih banyak tugas sederhana di mana robot bisa memperbaiki dunia
Adegan robot memasang sabuk melingkar ke pulley di bagian akhir video utama terasa mengesankan
- Mungkin ada banyak perilaku seperti ini dalam data pelatihan, tetapi rasanya lebih intuitif daripada melipat baju atau memilah barang
- Fitur putar otomatis/jeda/gulir video di halaman tampaknya rusak
Ingin perangkat yang berfungsi sebagai penerjemah dua arah real-time
- Akan menyenangkan jika bisa tinggal di sana tanpa membuang waktu mempelajari bahasa Jerman atau bahasa lain
- Akan luar biasa jika hanya dengan bahasa Inggris sudah bisa memesan makanan dan mengurus administrasi
Siapa pun nantinya akan bisa memesan lengan robot dari China, memasangnya di garasi, dan memprogramnya lewat teks seperti LLM
- Saatnya berpikir lebih besar
Tidak yakin apakah video itu menunjukkan performa nyata atau strategi pemasaran, tetapi tetap mengesankan
- Mengingatkan pada lengan robot di Iron Man 1
Jika robot menjadi cukup terampil untuk menyiapkan makanan, itu akan menjadi titik balik di pasar kerja
- Model saat ini belum sampai ke level itu, tetapi akan menarik melihat apakah investasi besar dalam pembuatan data sintetis beberapa tahun ke depan bisa mendekatkannya ke level tersebut
Masalah Google adalah bisnis iklannya menghasilkan terlalu banyak uang sehingga produk lain terasa tidak berarti
- Mereka akan menggunakan apa yang dipelajari dari robot untuk meningkatkan pendapatan iklan

Google DeepMind memperkenalkan Gemini Robotics

Gemini Robotics: model vision-language-action paling maju

1. Kemampuan generalisasi (Generality)

2. Kemampuan interaksi (Interactivity)

3. Ketangkasan (Dexterity)

4. Dapat diterapkan pada berbagai bentuk robot (Multiple embodiments)

Gemini Robotics-ER: kemampuan pemahaman ruang yang diperkuat

Strategi penguatan keamanan AI dan robot

Mitra utama dan rencana ke depan

Tautan terkait

Bacaan terkait

1 komentar

Komentar Hacker News