5 poin oleh GN⁺ 2025-06-26 | 1 komentar | Bagikan ke WhatsApp
  • Model VLA (vision-language-action) serbaguna yang dioptimalkan agar dapat dijalankan langsung di robot
  • Menawarkan adaptasi tugas yang cepat dan kemampuan manipulasi serbaguna, serta berjalan secara lokal tanpa koneksi internet untuk menjamin latensi rendah dan ketahanan
  • Membutuhkan sumber daya komputasi minimal dan memiliki kemampuan manipulasi presisi berbasis robot dua lengan serta perpindahan kerja yang cepat
  • Pengembang dapat dengan cepat menguji langsung sesuai lingkungan mereka melalui Gemini Robotics SDK, dan adaptasi tugas yang cepat dimungkinkan hanya dengan demo skala kecil sekitar 50~100 kali
  • Menunjukkan kinerja generalisasi dan adaptasi yang lebih tinggi dibanding model on-device lain, serta mampu menjalankan instruksi kompleks maupun tugas baru secara efisien
  • Dengan menerapkan prinsip keselamatan dan pengembangan yang bertanggung jawab, diperkenalkan minimalisasi risiko terhadap lingkungan nyata dan dampak sosial serta sistem penyerapan umpan balik

We’re introducing an efficient, on-device robotics model with general-purpose dexterity and fast task adaptation

  • Gemini Robotics On-Device adalah model VLA (vision-language-action) berefisiensi tinggi yang dirancang agar dapat berjalan langsung di perangkat robotika lokal
  • Menerapkan kemampuan penalaran multimodal dan pemahaman dunia nyata dari Gemini Robotics yang diumumkan pada bulan Maret ke lingkungan fisik nyata
  • Keunggulan model on-device

    • Dapat beroperasi secara mandiri tanpa jaringan, sehingga unggul di lingkungan yang membutuhkan latensi rendah atau memiliki koneksi yang tidak stabil
    • Dioptimalkan untuk lingkungan lokal sehingga memungkinkan pelaksanaan pekerjaan real-time dengan cepat
    • Memiliki berbagai kemampuan generalisasi visual, semantik, dan perilaku
    • Mampu melakukan tugas manipulasi presisi berbasis robot dua lengan (membuka ritsleting, melipat pakaian, dll.)
    • Dapat memahami instruksi bahasa alami dan menjalankan tugas kompleks bertahap

Penyediaan SDK memungkinkan penerapan dan kustomisasi dengan mudah

  • Melalui Gemini Robotics SDK, pengembang dapat menguji model di lingkungan mereka sendiri, mengujinya menggunakan simulator fisika MuJoCo, dan menerapkannya ke berbagai tugas
  • Adaptasi cepat ke domain baru dimungkinkan hanya dengan demo skala kecil sekitar 50~100 kali

Model capabilities and performance

  • Gemini Robotics On-Device dirancang untuk robot bi-arm dengan sumber daya komputasi minimal
  • Dioptimalkan untuk eksperimen cepat, manipulasi berbasis ketangkasan, eksekusi lokal, dan inferensi latensi rendah
  • Mengenali perintah bahasa alami dan dapat langsung melakukan manipulasi tingkat tinggi seperti membuka ritsleting dan melipat pakaian
  • Memiliki fleksibilitas dan kinerja generalisasi yang lebih baik dibanding model on-device yang ada, serta efektif menangani instruksi multi-langkah yang kompleks
  • Jika membutuhkan kinerja lebih tinggi atau lingkungan tanpa batasan, model Gemini Robotics versi server juga tersedia

Adaptable to new tasks, generalizable across embodiments

  • Gemini Robotics On-Device adalah model VLA pertama yang dapat di-fine-tune
  • Dengan hanya 50~100 demo, model ini dapat beradaptasi cepat ke tugas baru, dan menunjukkan kinerja adaptasi lebih tinggi dibanding model pesaing pada berbagai tugas dexterity dengan tingkat kesulitan beragam (memasang ritsleting, mengambil kartu, menuang dressing, dll.)
  • Meski dilatih untuk robot tertentu (ALOHA), model ini dapat diperluas ke berbagai bentuk robot seperti Franka FR3 dan Apollo humanoid melalui pelatihan tambahan
  • Juga mampu menangani berbagai instruksi, objek baru, dan tugas industri kompleks (seperti perakitan sabuk)

Responsible development and safety

  • Model ini dikembangkan berdasarkan AI Principles dan kerangka keselamatan terintegrasi
  • Melalui [Live API], keamanan semantik dan konten dijaga, serta keselamatan saat operasi nyata diperkuat dengan integrasi ke pengendali keselamatan level rendah
  • Risiko ditinjau melalui berbagai sistem evaluasi seperti Semantic Safety Benchmark dan Red-Teaming
  • Tim khusus (Responsible Development & Innovation, RSC) secara berkelanjutan melakukan evaluasi dampak sosial dan penyerapan umpan balik
  • Model ini dirilis lebih awal kepada kelompok penguji tepercaya untuk mengumpulkan evaluasi awal atas kegunaan dan keselamatan

Accelerating innovation in robotics

  • Gemini Robotics On-Device mendukung komunitas robotika dalam mengatasi masalah latensi dan konektivitas dengan menyediakan model AI yang serbaguna dan adaptif
  • Diharapkan dapat mempercepat inovasi melalui kemampuan penerapan cepat dan adaptasi tugas lewat SDK
  • Akses ke model dan SDK tersedia melalui Trusted Tester Program
  • Memperluas penerapan AI ke dunia fisik dan menghadirkan visi untuk memimpin masa depan bidang robotika

1 komentar

 
GN⁺ 2025-06-26
Opini Hacker News
  • Saya optimistis terhadap robotika humanoid, tetapi penasaran dengan masalah keandalannya. Lengan, kaki, dan tangan manusia adalah sistem luar biasa yang terus menyentuh dunia, mengalami keausan alami, dan tetap bisa pulih sendiri

    • Robot industri sangat unggul dalam hal keandalan. MTBF (rata-rata waktu antar kegagalan) sering kali melebihi 100.000 jam. Yang penting, robot industri dirancang agar bisa beroperasi selama mungkin tanpa rusak demi meningkatkan profitabilitas. Perusahaan Jerman dan Jepang menguasai pasar robot industri dengan mengembangkan aktuator listrik yang menekankan keandalan. Di masa lalu, robot hidraulik buatan Cincinnati Millicron dari AS memang kuat, tetapi kalah bersaing karena kurang andal. Namun, ada juga pandangan skeptis bahwa tangan humanoid sulit mencapai tingkat keandalan robot industri karena banyak komponen kecil harus menahan gaya besar tautan terkait

    • Jika memikirkan kemungkinan dalam waktu dekat, ini terasa sangat menarik atau sedikit menyeramkan. Dulu saya kira robot akan fokus pada tujuan tertentu saja (misalnya robot khusus pembersih), tetapi tampaknya ketika semuanya siap, penggunaannya akan sangat umum. Memang akan membutuhkan banyak sensor dan motor, tetapi menarik bahwa dibanding mobil otonom, risiko hukumnya lebih rendah dan sumber daya yang dibutuhkan juga lebih sedikit

    • Saya pikir ada juga kemungkinan robot lain akan mengganti komponen habis pakai secara otomatis

    • Saya rasa riset tambahan di ilmu material juga bisa menyelesaikan masalah seperti ini. Jika dipadukan dengan servo yang responsif tetapi bertorsi rendah, saya melihat ini juga sebagai masalah yang bisa diatasi

    • Menarik melihat bagaimana robot akan berubah secara individual seiring waktu. Misalnya, di lingkungan keras seperti robot tambang, komponennya bisa sangat terkontaminasi debu, aus di sana-sini, atau bengkok karena batu runtuh. Bahkan jika robot lain memperbaikinya sementara, seiring waktu semua robot tampaknya akan berubah sedikit berbeda satu sama lain. Seperti pekerjaan perawatan pesawat komersial yang sering unik tergantung benturan atau kerusakannya, mungkin untuk robot solusi yang lebih mudah justru daur ulang

  • Saya penasaran apakah mudah bergabung ke "trusted tester program" dan apakah tersedia juga modul yang memudahkan penggunaan SDK

    • Disebutkan bahwa ada tombol pendaftaran di bagian bawah artikel tersebut
  • Saya penasaran SDK ini berjalan di perangkat keras apa, dan apakah bisa berjalan juga di Raspberry Pi terbaru

    • Menurut posting blog, dibutuhkan minimal NVIDIA Jetson Orin dengan RAM 8GB, dan sistem ini dioptimalkan untuk modul Jetson AGX Orin (64GB) dan Orin NX (16GB)

    • Disebutkan bahwa salah satu kontributor proyek memposting di x bahwa ini berjalan di kartu grafis 4090 tautan x terkait

    • Pada dasarnya, sistem ini bisa dianggap sebagai LLM multimodal (model bahasa besar). Model kecil seperti SmolVLA (parameter 0.5B) cepat dan efisien untuk tugas tertentu, sedangkan OpenVLA (fine-tune Llama2 7B) adalah model besar untuk tugas yang lebih umum. Dengan Raspberry Pi pun beberapa model tujuan khusus bisa dijalankan, dan untuk model yang lebih umum, perangkat keras konsumen berkinerja tinggi tampaknya sudah memadai

  • Tautan MuJoCo ternyata sebenarnya mengarah ke github.com/google-deepmind/aloha_sim

  • Saya penasaran dengan arsitektur modelnya, dan memperkirakan ini akan sangat berbeda dari LLM; jika ada tautan yang menjelaskan arsitektur VLA secara detail, mohon dibagikan

    • Saya justru menganggap strukturnya sangat dekat dengan LLM. Ini adalah model VLA, "Visual Language Action", dan berbasis pada Gemini 2.0. Karena Gemini 2.0 secara native mendukung bahasa, audio, dan video, dapat diduga bahwa data "action" juga bisa dimasukkan. Kemungkinan besar ini adalah struktur yang menambahkan data aksi pada tahap fine-tuning output. Saya melihat LLM multimodal native seperti ini akan segera berperan sebagai "otak"
  • Teknologi seperti ini jelas pada akhirnya juga akan dipakai sebagai mesin perang. Otonomi on-device sangat cocok untuk menghindari kekuasaan terpusat atau pelacakan tanggung jawab. Tidak seperti operator drone, tidak ada manusia yang bisa dituntut atas kejahatan perang. Kontrak militer terlalu besar untuk dilawan, dan penghapusan kerja berat tampaknya akan mengarah pada penghapusan manusia secara menyeluruh. Masa depan "AI-Powered Automation for Every Decision" yang menghapus kehidupan manusia yang menguntungkan tampak semakin jelas palantir.com

    • Boston Dynamics, yang berasal dari MIT lalu diakuisisi Google, pernah berjanji tidak akan memiliterisasi robot, tetapi kenyataannya ada latar investasi militer seperti DARPA dan Departemen Pertahanan AS, sehingga sangat sulit untuk mempercayainya

    • Pada praktiknya, hampir semua teknologi yang berguna punya aplikasi militer. Saya tidak paham kenapa hal ini jadi perdebatan yang begitu panas

    • Saya rasa akan sangat sulit bagi robot ini untuk bersaing dengan drone di medan perang. Biayanya mungkin setara dengan 1000 drone otonom dan membutuhkan waktu serta sumber daya lebih dari 100 kali lipat. Drone sudah membuktikan perannya secara nyata di medan perang (misalnya Ukraina) karena kecil dan kuat, dan seberapa pun lincah gerakannya, rasanya sulit untuk lari menghindari drone peledak. Sekalipun ada Terminator memegang shotgun, akan mudah menempatkan 5 drone per unit, dan drone seperti itu mungkin juga bisa dibuat oleh robot otonom lain

  • Pola Google yang diam-diam merilis produk inovatif lalu segera dilupakan cukup mengesankan. Tanpa promosi besar-besaran, hanya posting blog, lalu beredar sebentar di komunitas teknologi dan menghilang, kemudian beberapa tahun setelahnya orang bertanya, "itu jadinya bagaimana?". Namun produk ini terlihat keren, jadi akan menarik jika ada yang membangun startup hebat dari sini

    • Tujuan utama proyek-proyek seperti ini di Google adalah untuk menekan regulator. Bukan untuk dimonetisasi, melainkan sekadar membakar uang dengan sengaja lalu lanjut ke hal berikutnya, dan kebebasan seperti ini hanya mungkin karena mereka adalah perusahaan monopoli
  • Saya akan minum kopi sambil menunggu jawaban dari API

  • Saya rasa satu-satunya cara agar robot tidak kabur lalu merampok bank adalah memindahkan GPU ke private SOTA security GPU cloud

  • Saya penasaran apakah akan ada guardrail seperti Three Laws of Robotics agar robot tidak menjadi gila saat menjalankan prompt

    • Tiga Hukum Robotika dibuat sebagai struktur konflik dalam fiksi, jadi sistem dunia nyata tidak cocok jika seperti itu. Dalam praktiknya, desain keselamatan Gemini Robotics bersifat berlapis. Model menalar apa yang aman, VLA mengeluarkan opsi eksekusi, lalu di tahap akhir low-level controller bekerja dengan fitur keselamatan inti yang tertanam seperti batas kecepatan atau gaya

    • Istilah umum untuk penelitian seperti ini adalah Constitutional AI, dan ini telah diuji/dikutip di banyak VLA robotika makalah terkait

    • Saya melihat guardrail yang diterapkan saat ini lebih dekat ke IEC 61508 (standar keselamatan fungsional internasional) daripada tiga hukum itu

    • Ada juga yang bilang solusinya adalah kode untuk mematikan daya

    • Ada pendapat bahwa Tiga Hukum Robotika secara realistis adalah aturan yang tidak bermakna