Gemini Robotics-ER 1.6: Penalaran Terwujud yang Ditingkatkan

(deepmind.google)

1 poin oleh GN⁺ 6 hari lalu | 1 komentar | Bagikan ke WhatsApp

Model embodied reasoning yang ditingkatkan, dirancang agar robot dapat memahami lingkungan fisik secara presisi dan bertindak secara otonom, dengan peningkatan besar pada kemampuan penalaran spasial dan perencanaan tugas
Menjalankan fungsi penilaian tingkat tinggi robot seperti pemahaman visual-spasial, deteksi keberhasilan, dan penalaran multi-sudut pandang, serta langsung menangani tugas kompleks melalui Google Search atau pemanggilan fungsi eksternal
Dengan fitur Pointing, model dapat melakukan berbagai logika spasial seperti deteksi objek, perbandingan, dan estimasi jalur, sambil mengurangi kesalahan halusinasi dan meningkatkan akurasi persepsi dibanding versi sebelumnya
Fitur Instrument Reading yang baru memungkinkan robot Spot dari Boston Dynamics menafsirkan termometer, pengukur tekanan, dan instrumen lain di fasilitas industri secara presisi
Ditandai dengan peningkatan kepatuhan terhadap kebijakan keselamatan dan kolaborasi dengan komunitas untuk meningkatkan otonomi serta keandalan di lingkungan nyata

Ringkasan Gemini Robotics-ER 1.6

Gemini Robotics-ER 1.6 adalah model embodied reasoning yang ditingkatkan dan dirancang agar robot dapat memahami lingkungan fisik secara presisi dan bertindak secara otonom
Memperkuat kemampuan penalaran tingkat tinggi yang penting bagi robot, seperti penalaran spasial, pemahaman multi-sudut pandang, perencanaan tugas, dan deteksi keberhasilan
Dapat memanggil langsung berbagai alat untuk menjalankan tugas, termasuk Google Search, model Vision-Language-Action (VLA), dan fungsi kustom eksternal
Menunjukkan peningkatan performa yang signifikan dalam penalaran spasial dan fisik (pointing, counting, success detection) dibanding Gemini Robotics-ER 1.5 dan Gemini 3.0 Flash
Menambahkan fitur baru instrument reading yang dikembangkan bekerja sama dengan Boston Dynamics

Fitur utama dan peningkatan performa

Gemini Robotics-ER 1.6 tersedia bagi pengembang melalui Gemini API dan Google AI Studio
- Contoh Colab di GitHub menyediakan panduan untuk menyiapkan model dan menyusun prompt tugas embodied reasoning
Model ini berperan sebagai mesin penalaran tingkat atas yang menangani penilaian tingkat tinggi robot seperti pemahaman visual dan spasial, perencanaan tugas, dan deteksi keberhasilan
Dengan memanfaatkan agentic vision, model menggabungkan penalaran visual dan eksekusi kode untuk mencapai akurasi tinggi bahkan di lingkungan fisik yang kompleks

Pointing: dasar penalaran spasial

Pointing adalah fungsi inti model embodied reasoning, digunakan dalam berbagai logika spasial seperti deteksi objek, perbandingan, dan estimasi jalur
- Penalaran spasial: deteksi objek presisi dan penghitungan jumlah
- Logika relasional: mengidentifikasi item terkecil dalam himpunan, mendefinisikan relasi seperti “pindahkan X ke posisi Y”
- Penalaran gerak: pemetaan lintasan dan identifikasi titik genggam optimal
- Kepatuhan terhadap batasan: menangani perintah kompleks seperti “tunjuk semua objek yang cukup kecil untuk masuk ke dalam cangkir biru”
Gemini Robotics-ER 1.6 menggunakan pointing sebagai langkah perantara untuk menyelesaikan tugas kompleks secara bertahap
- Contoh: menghitung jumlah objek dalam gambar, mengidentifikasi titik penting untuk perhitungan matematis
Hasil eksperimen menunjukkan bahwa 1.6 secara akurat mengidentifikasi banyak objek seperti palu, gunting, kuas cat, dan tang, serta tidak menunjuk objek yang tidak ada (misalnya gerobak tangan, bor)
- Versi 1.5 salah mengenali sebagian objek atau berhalusinasi terhadap objek yang tidak ada
- 3.0 Flash menunjukkan performa yang mendekati, tetapi akurasi pengenalan tang lebih rendah

Success Detection: mesin inti otonomi

Kemampuan robot mengenali kapan sebuah tugas selesai adalah elemen kunci otonomi
Gemini Robotics-ER 1.6 meningkatkan penalaran multi-sudut pandang untuk memahami hubungan antar berbagai feed kamera
- Memungkinkan interpretasi adegan yang konsisten bahkan di lingkungan kompleks, saat ada halangan (occlusion), masalah pencahayaan, atau instruksi yang ambigu
- Contoh: secara akurat menentukan kapan tugas “memasukkan pena biru ke dudukan pena hitam” telah selesai berdasarkan video dari beberapa sudut pandang

Instrument Reading: penalaran visual di lingkungan nyata

Fungsi untuk menafsirkan instrumen seperti termometer, pengukur tekanan, dan sight glass di fasilitas industri
- Robot Spot dari Boston Dynamics memotret instrumen di dalam fasilitas, lalu Gemini Robotics-ER 1.6 menafsirkannya
Mendukung pembacaan berbagai bentuk instrumen seperti pengukur tekanan melingkar, indikator level vertikal, dan instrumen digital
Proses pembacaan menafsirkan secara terpadu berbagai elemen visual kompleks seperti ketinggian cairan, skala, teks satuan, dan banyak jarum
- Untuk sight glass, model memperkirakan ketinggian cairan dengan mempertimbangkan distorsi kamera
Melalui agentic vision, model melakukan zoom, pointing, dan eksekusi kode secara bertahap untuk mencapai pembacaan presisi hingga level sub-tick
Wakil presiden Boston Dynamics, Marco da Silva, menyebut fitur ini memungkinkan Spot mengenali dan merespons masalah di dunia nyata secara sepenuhnya otonom

Peningkatan keselamatan

Gemini Robotics-ER 1.6 dinilai sebagai model robotika paling aman
- Tingkat kepatuhan terhadap kebijakan keselamatan Gemini lebih tinggi dibanding generasi sebelumnya
Kemampuan mematuhi batasan keselamatan fisik diperkuat
- Contoh: batasan seperti “jangan menangani cairan” atau “jangan mengangkat objek di atas 20kg” tercermin pada tahap keluaran spasial (pointing)
Dalam uji pengenalan skenario keselamatan teks dan video berdasarkan laporan cedera nyata
- Meningkat +6% pada teks dan +10% pada video dibanding Gemini 3.0 Flash
Dalam evaluasi Safety Instruction Following, terdapat peningkatan besar dibanding 1.5, dan akurasi pointing juga meningkat

Kolaborasi dengan komunitas robotika

Google DeepMind mendorong kolaborasi dengan komunitas robotika untuk terus meningkatkan kemampuan Gemini Robotics-ER
- Jika ada keterbatasan pada bidang aplikasi tertentu, komunitas diminta membagikan contoh kegagalan dengan mengirimkan 10~50 gambar berlabel
- Melalui hal ini, target rilis mendatang adalah memperkuat ketangguhan kemampuan penalaran
Gemini Robotics-ER 1.6 dapat langsung dicoba di Google AI Studio

1 komentar

GN⁺ 6 hari lalu

Komentar Hacker News

Rasanya ini makin mendekati tingkat meniru perilaku manusia atau hewan
Jika pola orkestrasi yang bekerja seperti otak bisa diletakkan di atas model generatif, lalu kecepatan penalarannya cukup tinggi, rasanya model bisa melakukan jauh lebih banyak hal
Misalnya, membuat dan menjalankan skrip Python untuk membaca gauge saat ini masih lambat, tetapi jika kecepatannya 100x~1000x lebih tinggi, sepertinya model bisa membuat loop yang memotret, mensimulasikan masa depan, lalu mengambil keputusan sendiri
- Taalas sedang bereksperimen dengan menanamkan model langsung ke chip untuk mewujudkan inferensi ultra-cepat
  Namun model yang dipakai adalah Llama lama sehingga kualitasnya rendah, tetapi kalau memang bisa diskalakan, itu akan sangat luar biasa
- Taalas menunjukkan bahwa LLM bisa diubah menjadi ASIC dan menghasilkan lebih dari 10 ribu token dengan cepat
  Pada akhirnya, menurutku ini cuma soal waktu
- Aku ragu meniru perilaku manusia benar-benar tujuan yang bernilai
  Manusia adalah hasil evolusi untuk berburu dan membuat alat, tetapi otomasi industri nyata berkembang bukan dalam bentuk humanoid melainkan bentuk praktis seperti R2D2
  Robot rumah tangga juga sepertinya akan lebih dekat ke arah itu
- Ada juga candaan: bagaimana kalau memasukkan ‘gambar slop’ ke ‘mesin slop’, lalu keluar ‘slop²’?
Bayangkan menyiapkan sebidang tanah, kaki robot, lengan, baterai, GPU, dan panel surya,
lalu memberi prompt, “urus tanah ini dan tanamlah sayuran”
- Hasilnya masih belum pasti, tetapi prompt tradisionalnya adalah “berkembang biak dan bertambah banyaklah”
- Ungkapan “urus tanah ini” bisa berarti pengelolaan kebakaran skala kecil yang telah dilakukan penduduk asli California selama ribuan tahun
  Ada juga satoyama di Jepang, rotasi tanam di Afrika, dan pertanian kontur di Rusia; tiap wilayah punya caranya sendiri
  Intinya, cara merawat tanah berbeda tergantung konteks lokal dan tujuan
- Aku penasaran bagaimana eksperimen seperti Proof of Corn berjalan di dunia nyata
- Candaan lain: “Sudah beres! Sekarang seluruh Bumi berubah jadi kebun sayur”
Google dan Boston Dynamics sedang bekerja sama mengembangkan model,
dan kini Hyundai telah mengakuisisi Boston Dynamics untuk mencoba memasukkan robot ke otomasi pabrik
Aku pernah berpikir akan bagus jika ada perangkat lunak yang memotret pressure gauge dengan kamera lalu mencatatnya sebagai grafik
Penasaran apakah ada versi konsumen untuk itu
- Kalau minta ke Claude, ia bisa langsung membuatkannya sekaligus dashboard Home Assistant
- Aku penasaran bagaimana reaksi petugas pemerintah kalau ada kamera dipasang di meteran sekitar rumah
- Coba lihat OpenCV
- Bisa juga dengan Frigate atau Openclaw, walau yang pertama terasa berlebihan dan yang kedua sedikit kurang berlebihan
Aku ragu membaca instrumen analog dengan robot itu pendekatan yang tepat
Bukankah lebih baik langsung menggantinya dengan sensor digital?
- Tapi dalam praktiknya, penggantian seperti itu butuh persetujuan engineering, shutdown pabrik, pengabelan, integrasi SCADA, dan lain-lain; biaya dan prosedurnya sangat besar
  Sulit membandingkannya secara sederhana, dan mudah sekali meremehkan kompleksitas perubahan seperti ini
- Daripada menghentikan peralatan lalu menggantinya, memasang kamera IoT bisa jauh lebih murah dan andal
  Prinsip “kalau belum rusak, jangan diperbaiki” berlaku di sini
Sepertinya ini akan cocok sekali jika dihubungkan ke sistem ‘LLMs can control robots over MCP’ milikku
Karena LLM pandai menulis kode, aku ingin memanfaatkan kemampuan itu
Aku berencana mengujinya dengan robot besar yang baru kubeli
Posting terkait
- Ini mengingatkanku pada video tentang Google PaLM-E yang kulihat sekitar dua minggu lalu
  Arsitekturnya menggabungkan model kontrol robot dan LLM lewat attention layer
Bagian yang paling membuatku penasaran adalah latensi
Dalam beberapa tugas persepsi, ini lebih baik daripada frontier vision model, tetapi untuk robot kinerja dalam satuan Hz itu penting
Dugaan awalku: kemungkinan lambat
- Saat diuji di AI Studio, performa persepsinya setara 3.1 Pro tetapi jauh lebih cepat
  Modelnya hanya ‘berpikir’ beberapa detik lalu mengeluarkan hasil
  Untuk hal seperti menghitung jumlah kaki hewan atau membaca jam analog, rasio efisiensi terhadap performa model ini sangat tinggi
Ungkapan “model robot paling aman” terdengar menarik
Gemini Robotics-ER 1.6 memiliki tingkat kepatuhan terhadap kebijakan keselamatan yang lebih tinggi daripada generasi sebelumnya,
tetapi masih belum sepenuhnya siap komersial, sehingga pendekatan yang mengejar keselamatan sebagai sasaran terasa realistis
AI untuk robot mungkin sudah punya model internal setara GPT-2 atau GPT-3,
tetapi menurutku sulit dipublikasikan karena kegagalan di lingkungan sehari-hari bisa berakibat fatal
Misalnya, memecahkan satu piring saja saat mengosongkan mesin pencuci piring bisa dianggap masalah besar
- Aku menonton Bicentennial Man (1999) akhir pekan ini, dan adegan mesin pencuci piringnya sangat membekas
  Film yang pas untuk ditonton sekarang
- Memecahkan satu piring mungkin sebenarnya bukan masalah sebesar itu
  Roomba generasi awal juga sering berantakan, tetapi pasar tetap menerimanya dan akhirnya teknologinya berkembang
  Menurutku yang penting adalah masuk ke pasar lebih dulu sambil mengumpulkan data meski belum sempurna
- Aku juga sudah sering memecahkan piring saat mengosongkan mesin pencuci piring
  Tidak ada sistem yang sempurna
- Sebagai manusia pun aku memecahkan piring sekitar dua kali sebulan
  Kalau robot bisa lebih baik dari itu, justru itu peningkatan
- Di bidang robotika masih belum ada data berskala internet
  Jadi menurutku tidak jujur kalau ada yang mengklaim sudah punya model setingkat GPT
Aku sedang bertanya-tanya apakah harus terus memakai model yang sekarang
sampai Google resmi merilis Gemini Flash 3.1

Gemini Robotics-ER 1.6: Penalaran Terwujud yang Ditingkatkan

Ringkasan Gemini Robotics-ER 1.6

Fitur utama dan peningkatan performa

Pointing: dasar penalaran spasial

Success Detection: mesin inti otonomi

Instrument Reading: penalaran visual di lingkungan nyata

Peningkatan keselamatan

Kolaborasi dengan komunitas robotika

Bacaan terkait

1 komentar

Komentar Hacker News