6 poin oleh GN⁺ 2025-04-04 | 1 komentar | Bagikan ke WhatsApp
  • Google DeepMind mengembangkan Gemini Robotics, model AI multimodal generasi berikutnya untuk robot yang mampu melakukan tugas fisik
  • Model ini adalah versi Gemini 2.0 yang di-fine-tune dengan data khusus robot agar dapat melakukan tidak hanya teks, video, dan audio, tetapi juga tindakan nyata
  • Robot dapat melakukan berbagai tugas seperti membuat salad, bermain tic-tac-toe, melipat kertas, dan mengemas bekal makan siang

Contoh pengujian nyata dan verifikasi kemampuannya

  • Berbagai permintaan tugas diberikan kepada robot dua lengan ALOHA untuk riset
    • Contoh: memasukkan pena ke dalam sepatu, melakukan dunk bola basket, dan sebagainya
    • Meskipun objek dan tugas tersebut belum pernah dilihat sebelumnya, robot memahami permintaan dan berhasil melaksanakannya pada percobaan pertama
  • Berbeda dari model sebelumnya, model ini dapat memahami dan mengeksekusi perintah fisik yang kompleks dalam bahasa alami

Karakteristik utama Gemini Robotics

  • Memiliki fleksibilitas tinggi, kemampuan interaksi, dan kemampuan generalisasi
    • Dapat beradaptasi dengan objek, lingkungan, dan instruksi baru tanpa pelatihan tambahan
  • Menjadi dasar untuk mewujudkan AI dan robot sebagai satu agen terpadu
  • Memberikan kemampuan persepsi, penilaian, dan tindakan yang mirip manusia

Pengenalan model penyusunnya

  • Gemini Robotics-ER (Embodied Reasoning):

    • Berbasis Gemini 2.0 Flash
    • Menghasilkan dan menjalankan kode melalui pengenalan objek, pelacakan posisi, prediksi lintasan gerak, pengaturan grip, dan sebagainya
    • Sedang dibuka untuk penguji tepercaya dan mitra
  • Gemini Robotics:

    • Model terpadu vision-language-action
    • Mampu memahami adegan, berinteraksi dengan pengguna, dan menjalankan tugas multi-tahap
    • Mencatat kinerja ketangkasan terbaik mutakhir bahkan pada tugas yang memerlukan manipulasi kompleks dan penalaran spasial

Kemampuan teknis yang spesifik

  • Deteksi objek 2D dan 3D
  • Fungsi pointing (menunjuk)
  • Menemukan titik korespondensi dari beberapa sudut pandang
  • Memiliki kemampuan manipulasi dengan memanfaatkan beragam informasi visual

Pendekatan pelatihan dan keunggulannya

  • Alih-alih pelatihan berulang untuk satu tugas seperti pendekatan industri konvensional, dipilih pembelajaran luas melalui beragam tugas
  • Hasilnya, kemampuan generalisasi muncul secara alami
  • Dapat diterapkan pada berbagai bentuk robot
    • Contoh: ALOHA (untuk riset), Apollo dari Apptronik (robot humanoid)

Dukungan untuk berbagai bentuk robot

  • Berbagai jenis robot menjalankan beragam tugas seperti mengemas bekal, menghapus whiteboard, dan mengambil benda kecil
  • Intinya adalah satu model dapat beradaptasi ke banyak robot

Visi ke depan

  • Diharapkan berguna di bidang industri yang membutuhkan pekerjaan presisi atau berada di lingkungan yang tidak cocok bagi manusia
  • Berpotensi berkembang menjadi robot yang membantu di lingkungan berpusat pada manusia seperti rumah
  • Dalam kehidupan sehari-hari, robot dapat menjadi antarmuka lain untuk berinteraksi dengan AI

1 komentar

 
GN⁺ 2025-04-04
Komentar Hacker News
  • Mereka mungkin bisa melakukan itu, tetapi Gemini Assistant di ponsel Pixel masih gagal mengatur timer atau menambahkan item ke daftar belanja. (Di Google Assistant ini bekerja dengan baik)
  • Tidak ada penjelasan sama sekali tentang "bagaimana", tetapi jika fitur ini bekerja bahkan setengah andal sekalipun, dampaknya akan sekitar 100 kali lebih besar daripada ChatGPT
  • Perkembangan AI dan robotika sangat menarik. Dengan sistem kompleks seperti Gemini, perusahaan kemungkinan harus bergantung pada tim spesialis untuk mewujudkan inovasi semacam ini
    • Dengan mengalihdayakan peran tertentu seperti riset AI atau insinyur robotika, perusahaan dapat merekrut talenta kelas atas tanpa beban perekrutan pegawai tetap
    • Menarik melihat bagaimana outsourcing dapat melengkapi litbang di industri canggih seperti robotika
    • Saya penasaran bagaimana industri ini akan berubah, terutama dari sisi skalabilitas dan kecepatan masuk ke pasar
  • Pada akhirnya sepertinya seseorang akan membantu pekerjaan rumah

    • Ah, bagus. Hanya saja, di balik itu semua ada tujuan militer, tetapi saya suka upaya untuk membuat kita berpikir bahwa mereka akan melipat cucian kita
  • "Ambil bola basket lalu lakukan dunk." Inilah killer use case yang sudah lama kita tunggu :)
  • Walaupun teknologi robot Google (perangkat lunak dan perangkat keras) mutakhir, saya ragu apakah mereka benar-benar bisa menjadikannya produk
    • Ini tampak mirip dengan ketika mereka menjadi pelopor transformer tetapi kehilangan semua keunggulan kepada ChatGPT
    • Sepertinya ada sesuatu yang membuat Google tidak mampu beralih secara efektif dari riset ke produk
    • Jika Anda menganggap Waymo saat ini telah mencapai product-market fit, itu bisa menjadi contoh tandingan yang bagus, tetapi sulit menghilangkan kesan bahwa Google biasanya gagal meluncurkannya ke pasar, atau bahkan jika meluncurkannya, menyerah sebelum produk itu mapan
    • Saya penasaran apakah ada yang punya pandangan atau wawasan kuat tentang upaya robotika mereka
  • Memikirkan kemungkinan robot semacam ini suatu hari digunakan di industri pertahanan itu menakutkan
    • Jika robot bisa memahami perintah umum seperti "singkirkan penghapus", bayangkan perintah "habisi semua musuh"
  • Saya cuma penasaran, kalau diperintahkan membunuh seseorang, apa yang akan dilakukan? Apakah akan mengikuti hukum robotika?
  • April Mop!