4 poin oleh GN⁺ 2025-03-13 | 1 komentar | Bagikan ke WhatsApp
  • Menghadirkan Gemini 2.0 ke bidang robotika dengan mengumumkan model vision-language-action (VLA) dan model ER yang memahami ruang
  • Google DeepMind telah mengembangkan kemampuan penalaran multimodal yang memanfaatkan teks, gambar, audio, dan video untuk menyelesaikan masalah kompleks
  • Namun, hingga kini kemampuan tersebut terbatas pada lingkungan digital
  • Agar AI berguna di dunia fisik, AI memerlukan kemampuan "penalaran berwujud (embodied reasoning)" untuk memahami dan merespons lingkungan seperti manusia, serta menjalankan tugas dengan aman
  • Sejalan dengan itu, dua model baru diumumkan
    • Gemini Robotics: model vision-language-action (VLA) berbasis Gemini 2.0 yang dapat langsung mengendalikan robot
    • Gemini Robotics-ER: model yang menghadirkan pemahaman spasial dan kemampuan kontrol robot yang ditingkatkan
  • Bekerja sama dengan Apptronik untuk mengembangkan robot humanoid generasi berikutnya
  • Sedang meningkatkan performa model bersama sejumlah kecil pengguna uji tepercaya

Gemini Robotics: model vision-language-action paling maju

1. Kemampuan generalisasi (Generality)

  • Dapat beradaptasi dalam situasi baru dan menjalankan beragam tugas
  • Menunjukkan performa unggul pada objek, perintah, dan lingkungan baru
  • Menurut laporan teknis, performa generalisasinya meningkat lebih dari 2x dibanding model VLA sebelumnya

2. Kemampuan interaksi (Interactivity)

  • Dapat memahami dan merespons perintah bahasa alami
  • Mendukung berbagai bahasa dan perintah bahasa sehari-hari
  • Dapat merespons perubahan lingkungan secara real time dan menyesuaikan tindakan
  • Bahkan jika objek tergelincir dari tangan atau posisinya berubah, robot dapat segera merencanakan ulang dan melanjutkan tugas

3. Ketangkasan (Dexterity)

  • Memperkuat kemampuan untuk melakukan tugas-tugas presisi
  • Dapat menjalankan tugas kompleks multi-langkah (misalnya melipat kertas, memasukkan camilan ke kantong zip, dan sebagainya)

4. Dapat diterapkan pada berbagai bentuk robot (Multiple embodiments)

  • Dapat diterapkan dengan mudah pada berbagai jenis robot
  • Telah dipastikan berjalan pada robot berbasis ALOHA 2, Franka, serta robot humanoid Apollo

Gemini Robotics-ER: kemampuan pemahaman ruang yang diperkuat

  • Performa persepsi spasial dan deteksi 3D Gemini 2.0 ditingkatkan secara signifikan
  • Robot dapat mengenali posisi objek dan memanipulasinya dengan cara yang sesuai
  • Digabungkan dengan kemampuan menghasilkan kode → robot dapat membuat cara baru untuk menyelesaikan tugas secara langsung
  • Tingkat keberhasilannya meningkat 2 hingga 3 kali dibanding Gemini 2.0
  • Contoh demonstrasi: mengenali gagang cangkir kopi lalu mendekat melalui jalur yang aman untuk mengangkatnya

Strategi penguatan keamanan AI dan robot

  • Berfokus pada penyelesaian masalah keselamatan fisik pada robot
  • Robot menjalankan langkah-langkah keselamatan tradisional seperti pencegahan tabrakan, pembatasan gaya kontak, dan menjaga stabilitas dinamis
  • Gemini Robotics-ER menilai apakah suatu tugas aman untuk dijalankan saat ada kekhawatiran keselamatan, lalu merespons dengan tepat
  • Merilis dataset ASIMOV baru → bertujuan mengevaluasi dan meningkatkan keamanan perilaku robot
  • Bekerja sama dengan komite tanggung jawab dan keselamatan internal serta para ahli eksternal untuk menangani isu etika

Mitra utama dan rencana ke depan

  • Bekerja sama dengan Apptronik untuk mengembangkan robot humanoid
  • Agile Robots, Agility Robots, Boston Dynamics, dan Enchanted Tools sedang menguji Gemini Robotics-ER
  • Ke depan, perusahaan berencana terus mendorong perkembangan teknologi AI dan robot

Tautan terkait

1 komentar

 
GN⁺ 2025-03-13
Komentar Hacker News
  • Ada tautan ke playlist lengkap di YouTube yang berisi 20 demo video
  • Bertanya-tanya apakah tidak ada yang ingat bahwa demo Google Gemini yang mengesankan sebelumnya pernah dimanipulasi
  • Menganggap Hukum Robot Asimov adalah properti fiksi ilmiah yang menarik, tetapi jauh dari komputasi nyata
    • Ternyata Asimov sudah lebih dulu menulis prompt LLM jauh sebelum zamannya
  • Jika pemilahan sampah menjadi lebih mudah dan cepat, efisiensi daur ulang bisa meningkat 100 kali lipat
    • Sudah ada tempat yang melakukan itu, tetapi masih banyak tugas sederhana di mana robot bisa memperbaiki dunia
  • Adegan robot memasang sabuk melingkar ke pulley di bagian akhir video utama terasa mengesankan
    • Mungkin ada banyak perilaku seperti ini dalam data pelatihan, tetapi rasanya lebih intuitif daripada melipat baju atau memilah barang
    • Fitur putar otomatis/jeda/gulir video di halaman tampaknya rusak
  • Ingin perangkat yang berfungsi sebagai penerjemah dua arah real-time
    • Akan menyenangkan jika bisa tinggal di sana tanpa membuang waktu mempelajari bahasa Jerman atau bahasa lain
    • Akan luar biasa jika hanya dengan bahasa Inggris sudah bisa memesan makanan dan mengurus administrasi
  • Siapa pun nantinya akan bisa memesan lengan robot dari China, memasangnya di garasi, dan memprogramnya lewat teks seperti LLM
    • Saatnya berpikir lebih besar
  • Tidak yakin apakah video itu menunjukkan performa nyata atau strategi pemasaran, tetapi tetap mengesankan
    • Mengingatkan pada lengan robot di Iron Man 1
  • Jika robot menjadi cukup terampil untuk menyiapkan makanan, itu akan menjadi titik balik di pasar kerja
    • Model saat ini belum sampai ke level itu, tetapi akan menarik melihat apakah investasi besar dalam pembuatan data sintetis beberapa tahun ke depan bisa mendekatkannya ke level tersebut
  • Masalah Google adalah bisnis iklannya menghasilkan terlalu banyak uang sehingga produk lain terasa tidak berarti
    • Mereka akan menggunakan apa yang dipelajari dari robot untuk meningkatkan pendapatan iklan