- Model embodied reasoning yang ditingkatkan, dirancang agar robot dapat memahami lingkungan fisik secara presisi dan bertindak secara otonom, dengan peningkatan besar pada kemampuan penalaran spasial dan perencanaan tugas
- Menjalankan fungsi penilaian tingkat tinggi robot seperti pemahaman visual-spasial, deteksi keberhasilan, dan penalaran multi-sudut pandang, serta langsung menangani tugas kompleks melalui Google Search atau pemanggilan fungsi eksternal
- Dengan fitur Pointing, model dapat melakukan berbagai logika spasial seperti deteksi objek, perbandingan, dan estimasi jalur, sambil mengurangi kesalahan halusinasi dan meningkatkan akurasi persepsi dibanding versi sebelumnya
- Fitur Instrument Reading yang baru memungkinkan robot Spot dari Boston Dynamics menafsirkan termometer, pengukur tekanan, dan instrumen lain di fasilitas industri secara presisi
- Ditandai dengan peningkatan kepatuhan terhadap kebijakan keselamatan dan kolaborasi dengan komunitas untuk meningkatkan otonomi serta keandalan di lingkungan nyata
Ringkasan Gemini Robotics-ER 1.6
- Gemini Robotics-ER 1.6 adalah model embodied reasoning yang ditingkatkan dan dirancang agar robot dapat memahami lingkungan fisik secara presisi dan bertindak secara otonom
- Memperkuat kemampuan penalaran tingkat tinggi yang penting bagi robot, seperti penalaran spasial, pemahaman multi-sudut pandang, perencanaan tugas, dan deteksi keberhasilan
- Dapat memanggil langsung berbagai alat untuk menjalankan tugas, termasuk Google Search, model Vision-Language-Action (VLA), dan fungsi kustom eksternal
- Menunjukkan peningkatan performa yang signifikan dalam penalaran spasial dan fisik (pointing, counting, success detection) dibanding Gemini Robotics-ER 1.5 dan Gemini 3.0 Flash
- Menambahkan fitur baru instrument reading yang dikembangkan bekerja sama dengan Boston Dynamics
Fitur utama dan peningkatan performa
- Gemini Robotics-ER 1.6 tersedia bagi pengembang melalui Gemini API dan Google AI Studio
- Contoh Colab di GitHub menyediakan panduan untuk menyiapkan model dan menyusun prompt tugas embodied reasoning
- Model ini berperan sebagai mesin penalaran tingkat atas yang menangani penilaian tingkat tinggi robot seperti pemahaman visual dan spasial, perencanaan tugas, dan deteksi keberhasilan
- Dengan memanfaatkan agentic vision, model menggabungkan penalaran visual dan eksekusi kode untuk mencapai akurasi tinggi bahkan di lingkungan fisik yang kompleks
Pointing: dasar penalaran spasial
- Pointing adalah fungsi inti model embodied reasoning, digunakan dalam berbagai logika spasial seperti deteksi objek, perbandingan, dan estimasi jalur
- Penalaran spasial: deteksi objek presisi dan penghitungan jumlah
- Logika relasional: mengidentifikasi item terkecil dalam himpunan, mendefinisikan relasi seperti “pindahkan X ke posisi Y”
- Penalaran gerak: pemetaan lintasan dan identifikasi titik genggam optimal
- Kepatuhan terhadap batasan: menangani perintah kompleks seperti “tunjuk semua objek yang cukup kecil untuk masuk ke dalam cangkir biru”
- Gemini Robotics-ER 1.6 menggunakan pointing sebagai langkah perantara untuk menyelesaikan tugas kompleks secara bertahap
- Contoh: menghitung jumlah objek dalam gambar, mengidentifikasi titik penting untuk perhitungan matematis
- Hasil eksperimen menunjukkan bahwa 1.6 secara akurat mengidentifikasi banyak objek seperti palu, gunting, kuas cat, dan tang, serta tidak menunjuk objek yang tidak ada (misalnya gerobak tangan, bor)
- Versi 1.5 salah mengenali sebagian objek atau berhalusinasi terhadap objek yang tidak ada
- 3.0 Flash menunjukkan performa yang mendekati, tetapi akurasi pengenalan tang lebih rendah
Success Detection: mesin inti otonomi
- Kemampuan robot mengenali kapan sebuah tugas selesai adalah elemen kunci otonomi
- Gemini Robotics-ER 1.6 meningkatkan penalaran multi-sudut pandang untuk memahami hubungan antar berbagai feed kamera
- Memungkinkan interpretasi adegan yang konsisten bahkan di lingkungan kompleks, saat ada halangan (occlusion), masalah pencahayaan, atau instruksi yang ambigu
- Contoh: secara akurat menentukan kapan tugas “memasukkan pena biru ke dudukan pena hitam” telah selesai berdasarkan video dari beberapa sudut pandang
Instrument Reading: penalaran visual di lingkungan nyata
- Fungsi untuk menafsirkan instrumen seperti termometer, pengukur tekanan, dan sight glass di fasilitas industri
- Robot Spot dari Boston Dynamics memotret instrumen di dalam fasilitas, lalu Gemini Robotics-ER 1.6 menafsirkannya
- Mendukung pembacaan berbagai bentuk instrumen seperti pengukur tekanan melingkar, indikator level vertikal, dan instrumen digital
- Proses pembacaan menafsirkan secara terpadu berbagai elemen visual kompleks seperti ketinggian cairan, skala, teks satuan, dan banyak jarum
- Untuk sight glass, model memperkirakan ketinggian cairan dengan mempertimbangkan distorsi kamera
- Melalui agentic vision, model melakukan zoom, pointing, dan eksekusi kode secara bertahap untuk mencapai pembacaan presisi hingga level sub-tick
- Wakil presiden Boston Dynamics, Marco da Silva, menyebut fitur ini memungkinkan Spot mengenali dan merespons masalah di dunia nyata secara sepenuhnya otonom
Peningkatan keselamatan
- Gemini Robotics-ER 1.6 dinilai sebagai model robotika paling aman
- Tingkat kepatuhan terhadap kebijakan keselamatan Gemini lebih tinggi dibanding generasi sebelumnya
- Kemampuan mematuhi batasan keselamatan fisik diperkuat
- Contoh: batasan seperti “jangan menangani cairan” atau “jangan mengangkat objek di atas 20kg” tercermin pada tahap keluaran spasial (pointing)
- Dalam uji pengenalan skenario keselamatan teks dan video berdasarkan laporan cedera nyata
- Meningkat +6% pada teks dan +10% pada video dibanding Gemini 3.0 Flash
- Dalam evaluasi Safety Instruction Following, terdapat peningkatan besar dibanding 1.5, dan akurasi pointing juga meningkat
Kolaborasi dengan komunitas robotika
- Google DeepMind mendorong kolaborasi dengan komunitas robotika untuk terus meningkatkan kemampuan Gemini Robotics-ER
- Jika ada keterbatasan pada bidang aplikasi tertentu, komunitas diminta membagikan contoh kegagalan dengan mengirimkan 10~50 gambar berlabel
- Melalui hal ini, target rilis mendatang adalah memperkuat ketangguhan kemampuan penalaran
- Gemini Robotics-ER 1.6 dapat langsung dicoba di Google AI Studio
1 komentar
Komentar Hacker News
Rasanya ini makin mendekati tingkat meniru perilaku manusia atau hewan
Jika pola orkestrasi yang bekerja seperti otak bisa diletakkan di atas model generatif, lalu kecepatan penalarannya cukup tinggi, rasanya model bisa melakukan jauh lebih banyak hal
Misalnya, membuat dan menjalankan skrip Python untuk membaca gauge saat ini masih lambat, tetapi jika kecepatannya 100x~1000x lebih tinggi, sepertinya model bisa membuat loop yang memotret, mensimulasikan masa depan, lalu mengambil keputusan sendiri
Namun model yang dipakai adalah Llama lama sehingga kualitasnya rendah, tetapi kalau memang bisa diskalakan, itu akan sangat luar biasa
Pada akhirnya, menurutku ini cuma soal waktu
Manusia adalah hasil evolusi untuk berburu dan membuat alat, tetapi otomasi industri nyata berkembang bukan dalam bentuk humanoid melainkan bentuk praktis seperti R2D2
Robot rumah tangga juga sepertinya akan lebih dekat ke arah itu
Bayangkan menyiapkan sebidang tanah, kaki robot, lengan, baterai, GPU, dan panel surya,
lalu memberi prompt, “urus tanah ini dan tanamlah sayuran”
Ada juga satoyama di Jepang, rotasi tanam di Afrika, dan pertanian kontur di Rusia; tiap wilayah punya caranya sendiri
Intinya, cara merawat tanah berbeda tergantung konteks lokal dan tujuan
Google dan Boston Dynamics sedang bekerja sama mengembangkan model,
dan kini Hyundai telah mengakuisisi Boston Dynamics untuk mencoba memasukkan robot ke otomasi pabrik
Aku pernah berpikir akan bagus jika ada perangkat lunak yang memotret pressure gauge dengan kamera lalu mencatatnya sebagai grafik
Penasaran apakah ada versi konsumen untuk itu
Aku ragu membaca instrumen analog dengan robot itu pendekatan yang tepat
Bukankah lebih baik langsung menggantinya dengan sensor digital?
Sulit membandingkannya secara sederhana, dan mudah sekali meremehkan kompleksitas perubahan seperti ini
Prinsip “kalau belum rusak, jangan diperbaiki” berlaku di sini
Sepertinya ini akan cocok sekali jika dihubungkan ke sistem ‘LLMs can control robots over MCP’ milikku
Karena LLM pandai menulis kode, aku ingin memanfaatkan kemampuan itu
Aku berencana mengujinya dengan robot besar yang baru kubeli
Posting terkait
Arsitekturnya menggabungkan model kontrol robot dan LLM lewat attention layer
Bagian yang paling membuatku penasaran adalah latensi
Dalam beberapa tugas persepsi, ini lebih baik daripada frontier vision model, tetapi untuk robot kinerja dalam satuan Hz itu penting
Dugaan awalku: kemungkinan lambat
Modelnya hanya ‘berpikir’ beberapa detik lalu mengeluarkan hasil
Untuk hal seperti menghitung jumlah kaki hewan atau membaca jam analog, rasio efisiensi terhadap performa model ini sangat tinggi
Ungkapan “model robot paling aman” terdengar menarik
Gemini Robotics-ER 1.6 memiliki tingkat kepatuhan terhadap kebijakan keselamatan yang lebih tinggi daripada generasi sebelumnya,
tetapi masih belum sepenuhnya siap komersial, sehingga pendekatan yang mengejar keselamatan sebagai sasaran terasa realistis
AI untuk robot mungkin sudah punya model internal setara GPT-2 atau GPT-3,
tetapi menurutku sulit dipublikasikan karena kegagalan di lingkungan sehari-hari bisa berakibat fatal
Misalnya, memecahkan satu piring saja saat mengosongkan mesin pencuci piring bisa dianggap masalah besar
Film yang pas untuk ditonton sekarang
Roomba generasi awal juga sering berantakan, tetapi pasar tetap menerimanya dan akhirnya teknologinya berkembang
Menurutku yang penting adalah masuk ke pasar lebih dulu sambil mengumpulkan data meski belum sempurna
Tidak ada sistem yang sempurna
Kalau robot bisa lebih baik dari itu, justru itu peningkatan
Jadi menurutku tidak jujur kalau ada yang mengklaim sudah punya model setingkat GPT
Aku sedang bertanya-tanya apakah harus terus memakai model yang sekarang
sampai Google resmi merilis Gemini Flash 3.1