1 poin oleh GN⁺ 6 hari lalu | 1 komentar | Bagikan ke WhatsApp
  • Model embodied reasoning yang ditingkatkan, dirancang agar robot dapat memahami lingkungan fisik secara presisi dan bertindak secara otonom, dengan peningkatan besar pada kemampuan penalaran spasial dan perencanaan tugas
  • Menjalankan fungsi penilaian tingkat tinggi robot seperti pemahaman visual-spasial, deteksi keberhasilan, dan penalaran multi-sudut pandang, serta langsung menangani tugas kompleks melalui Google Search atau pemanggilan fungsi eksternal
  • Dengan fitur Pointing, model dapat melakukan berbagai logika spasial seperti deteksi objek, perbandingan, dan estimasi jalur, sambil mengurangi kesalahan halusinasi dan meningkatkan akurasi persepsi dibanding versi sebelumnya
  • Fitur Instrument Reading yang baru memungkinkan robot Spot dari Boston Dynamics menafsirkan termometer, pengukur tekanan, dan instrumen lain di fasilitas industri secara presisi
  • Ditandai dengan peningkatan kepatuhan terhadap kebijakan keselamatan dan kolaborasi dengan komunitas untuk meningkatkan otonomi serta keandalan di lingkungan nyata

Ringkasan Gemini Robotics-ER 1.6

  • Gemini Robotics-ER 1.6 adalah model embodied reasoning yang ditingkatkan dan dirancang agar robot dapat memahami lingkungan fisik secara presisi dan bertindak secara otonom
  • Memperkuat kemampuan penalaran tingkat tinggi yang penting bagi robot, seperti penalaran spasial, pemahaman multi-sudut pandang, perencanaan tugas, dan deteksi keberhasilan
  • Dapat memanggil langsung berbagai alat untuk menjalankan tugas, termasuk Google Search, model Vision-Language-Action (VLA), dan fungsi kustom eksternal
  • Menunjukkan peningkatan performa yang signifikan dalam penalaran spasial dan fisik (pointing, counting, success detection) dibanding Gemini Robotics-ER 1.5 dan Gemini 3.0 Flash
  • Menambahkan fitur baru instrument reading yang dikembangkan bekerja sama dengan Boston Dynamics

Fitur utama dan peningkatan performa

  • Gemini Robotics-ER 1.6 tersedia bagi pengembang melalui Gemini API dan Google AI Studio
    • Contoh Colab di GitHub menyediakan panduan untuk menyiapkan model dan menyusun prompt tugas embodied reasoning
  • Model ini berperan sebagai mesin penalaran tingkat atas yang menangani penilaian tingkat tinggi robot seperti pemahaman visual dan spasial, perencanaan tugas, dan deteksi keberhasilan
  • Dengan memanfaatkan agentic vision, model menggabungkan penalaran visual dan eksekusi kode untuk mencapai akurasi tinggi bahkan di lingkungan fisik yang kompleks

Pointing: dasar penalaran spasial

  • Pointing adalah fungsi inti model embodied reasoning, digunakan dalam berbagai logika spasial seperti deteksi objek, perbandingan, dan estimasi jalur
    • Penalaran spasial: deteksi objek presisi dan penghitungan jumlah
    • Logika relasional: mengidentifikasi item terkecil dalam himpunan, mendefinisikan relasi seperti “pindahkan X ke posisi Y”
    • Penalaran gerak: pemetaan lintasan dan identifikasi titik genggam optimal
    • Kepatuhan terhadap batasan: menangani perintah kompleks seperti “tunjuk semua objek yang cukup kecil untuk masuk ke dalam cangkir biru”
  • Gemini Robotics-ER 1.6 menggunakan pointing sebagai langkah perantara untuk menyelesaikan tugas kompleks secara bertahap
    • Contoh: menghitung jumlah objek dalam gambar, mengidentifikasi titik penting untuk perhitungan matematis
  • Hasil eksperimen menunjukkan bahwa 1.6 secara akurat mengidentifikasi banyak objek seperti palu, gunting, kuas cat, dan tang, serta tidak menunjuk objek yang tidak ada (misalnya gerobak tangan, bor)
    • Versi 1.5 salah mengenali sebagian objek atau berhalusinasi terhadap objek yang tidak ada
    • 3.0 Flash menunjukkan performa yang mendekati, tetapi akurasi pengenalan tang lebih rendah

Success Detection: mesin inti otonomi

  • Kemampuan robot mengenali kapan sebuah tugas selesai adalah elemen kunci otonomi
  • Gemini Robotics-ER 1.6 meningkatkan penalaran multi-sudut pandang untuk memahami hubungan antar berbagai feed kamera
    • Memungkinkan interpretasi adegan yang konsisten bahkan di lingkungan kompleks, saat ada halangan (occlusion), masalah pencahayaan, atau instruksi yang ambigu
    • Contoh: secara akurat menentukan kapan tugas “memasukkan pena biru ke dudukan pena hitam” telah selesai berdasarkan video dari beberapa sudut pandang

Instrument Reading: penalaran visual di lingkungan nyata

  • Fungsi untuk menafsirkan instrumen seperti termometer, pengukur tekanan, dan sight glass di fasilitas industri
    • Robot Spot dari Boston Dynamics memotret instrumen di dalam fasilitas, lalu Gemini Robotics-ER 1.6 menafsirkannya
  • Mendukung pembacaan berbagai bentuk instrumen seperti pengukur tekanan melingkar, indikator level vertikal, dan instrumen digital
  • Proses pembacaan menafsirkan secara terpadu berbagai elemen visual kompleks seperti ketinggian cairan, skala, teks satuan, dan banyak jarum
    • Untuk sight glass, model memperkirakan ketinggian cairan dengan mempertimbangkan distorsi kamera
  • Melalui agentic vision, model melakukan zoom, pointing, dan eksekusi kode secara bertahap untuk mencapai pembacaan presisi hingga level sub-tick
  • Wakil presiden Boston Dynamics, Marco da Silva, menyebut fitur ini memungkinkan Spot mengenali dan merespons masalah di dunia nyata secara sepenuhnya otonom

Peningkatan keselamatan

  • Gemini Robotics-ER 1.6 dinilai sebagai model robotika paling aman
    • Tingkat kepatuhan terhadap kebijakan keselamatan Gemini lebih tinggi dibanding generasi sebelumnya
  • Kemampuan mematuhi batasan keselamatan fisik diperkuat
    • Contoh: batasan seperti “jangan menangani cairan” atau “jangan mengangkat objek di atas 20kg” tercermin pada tahap keluaran spasial (pointing)
  • Dalam uji pengenalan skenario keselamatan teks dan video berdasarkan laporan cedera nyata
    • Meningkat +6% pada teks dan +10% pada video dibanding Gemini 3.0 Flash
  • Dalam evaluasi Safety Instruction Following, terdapat peningkatan besar dibanding 1.5, dan akurasi pointing juga meningkat

Kolaborasi dengan komunitas robotika

  • Google DeepMind mendorong kolaborasi dengan komunitas robotika untuk terus meningkatkan kemampuan Gemini Robotics-ER
    • Jika ada keterbatasan pada bidang aplikasi tertentu, komunitas diminta membagikan contoh kegagalan dengan mengirimkan 10~50 gambar berlabel
    • Melalui hal ini, target rilis mendatang adalah memperkuat ketangguhan kemampuan penalaran
  • Gemini Robotics-ER 1.6 dapat langsung dicoba di Google AI Studio

1 komentar

 
GN⁺ 6 hari lalu
Komentar Hacker News
  • Rasanya ini makin mendekati tingkat meniru perilaku manusia atau hewan
    Jika pola orkestrasi yang bekerja seperti otak bisa diletakkan di atas model generatif, lalu kecepatan penalarannya cukup tinggi, rasanya model bisa melakukan jauh lebih banyak hal
    Misalnya, membuat dan menjalankan skrip Python untuk membaca gauge saat ini masih lambat, tetapi jika kecepatannya 100x~1000x lebih tinggi, sepertinya model bisa membuat loop yang memotret, mensimulasikan masa depan, lalu mengambil keputusan sendiri

    • Taalas sedang bereksperimen dengan menanamkan model langsung ke chip untuk mewujudkan inferensi ultra-cepat
      Namun model yang dipakai adalah Llama lama sehingga kualitasnya rendah, tetapi kalau memang bisa diskalakan, itu akan sangat luar biasa
    • Taalas menunjukkan bahwa LLM bisa diubah menjadi ASIC dan menghasilkan lebih dari 10 ribu token dengan cepat
      Pada akhirnya, menurutku ini cuma soal waktu
    • Aku ragu meniru perilaku manusia benar-benar tujuan yang bernilai
      Manusia adalah hasil evolusi untuk berburu dan membuat alat, tetapi otomasi industri nyata berkembang bukan dalam bentuk humanoid melainkan bentuk praktis seperti R2D2
      Robot rumah tangga juga sepertinya akan lebih dekat ke arah itu
    • Ada juga candaan: bagaimana kalau memasukkan ‘gambar slop’ ke ‘mesin slop’, lalu keluar ‘slop²’?
  • Bayangkan menyiapkan sebidang tanah, kaki robot, lengan, baterai, GPU, dan panel surya,
    lalu memberi prompt, “urus tanah ini dan tanamlah sayuran”

    • Hasilnya masih belum pasti, tetapi prompt tradisionalnya adalah “berkembang biak dan bertambah banyaklah
    • Ungkapan “urus tanah ini” bisa berarti pengelolaan kebakaran skala kecil yang telah dilakukan penduduk asli California selama ribuan tahun
      Ada juga satoyama di Jepang, rotasi tanam di Afrika, dan pertanian kontur di Rusia; tiap wilayah punya caranya sendiri
      Intinya, cara merawat tanah berbeda tergantung konteks lokal dan tujuan
    • Aku penasaran bagaimana eksperimen seperti Proof of Corn berjalan di dunia nyata
    • Candaan lain: “Sudah beres! Sekarang seluruh Bumi berubah jadi kebun sayur”
  • Google dan Boston Dynamics sedang bekerja sama mengembangkan model,
    dan kini Hyundai telah mengakuisisi Boston Dynamics untuk mencoba memasukkan robot ke otomasi pabrik

  • Aku pernah berpikir akan bagus jika ada perangkat lunak yang memotret pressure gauge dengan kamera lalu mencatatnya sebagai grafik
    Penasaran apakah ada versi konsumen untuk itu

    • Kalau minta ke Claude, ia bisa langsung membuatkannya sekaligus dashboard Home Assistant
    • Aku penasaran bagaimana reaksi petugas pemerintah kalau ada kamera dipasang di meteran sekitar rumah
    • Coba lihat OpenCV
    • Bisa juga dengan Frigate atau Openclaw, walau yang pertama terasa berlebihan dan yang kedua sedikit kurang berlebihan
  • Aku ragu membaca instrumen analog dengan robot itu pendekatan yang tepat
    Bukankah lebih baik langsung menggantinya dengan sensor digital?

    • Tapi dalam praktiknya, penggantian seperti itu butuh persetujuan engineering, shutdown pabrik, pengabelan, integrasi SCADA, dan lain-lain; biaya dan prosedurnya sangat besar
      Sulit membandingkannya secara sederhana, dan mudah sekali meremehkan kompleksitas perubahan seperti ini
    • Daripada menghentikan peralatan lalu menggantinya, memasang kamera IoT bisa jauh lebih murah dan andal
      Prinsip “kalau belum rusak, jangan diperbaiki” berlaku di sini
  • Sepertinya ini akan cocok sekali jika dihubungkan ke sistem ‘LLMs can control robots over MCP’ milikku
    Karena LLM pandai menulis kode, aku ingin memanfaatkan kemampuan itu
    Aku berencana mengujinya dengan robot besar yang baru kubeli
    Posting terkait

    • Ini mengingatkanku pada video tentang Google PaLM-E yang kulihat sekitar dua minggu lalu
      Arsitekturnya menggabungkan model kontrol robot dan LLM lewat attention layer
  • Bagian yang paling membuatku penasaran adalah latensi
    Dalam beberapa tugas persepsi, ini lebih baik daripada frontier vision model, tetapi untuk robot kinerja dalam satuan Hz itu penting
    Dugaan awalku: kemungkinan lambat

    • Saat diuji di AI Studio, performa persepsinya setara 3.1 Pro tetapi jauh lebih cepat
      Modelnya hanya ‘berpikir’ beberapa detik lalu mengeluarkan hasil
      Untuk hal seperti menghitung jumlah kaki hewan atau membaca jam analog, rasio efisiensi terhadap performa model ini sangat tinggi
  • Ungkapan “model robot paling aman” terdengar menarik
    Gemini Robotics-ER 1.6 memiliki tingkat kepatuhan terhadap kebijakan keselamatan yang lebih tinggi daripada generasi sebelumnya,
    tetapi masih belum sepenuhnya siap komersial, sehingga pendekatan yang mengejar keselamatan sebagai sasaran terasa realistis

  • AI untuk robot mungkin sudah punya model internal setara GPT-2 atau GPT-3,
    tetapi menurutku sulit dipublikasikan karena kegagalan di lingkungan sehari-hari bisa berakibat fatal
    Misalnya, memecahkan satu piring saja saat mengosongkan mesin pencuci piring bisa dianggap masalah besar

    • Aku menonton Bicentennial Man (1999) akhir pekan ini, dan adegan mesin pencuci piringnya sangat membekas
      Film yang pas untuk ditonton sekarang
    • Memecahkan satu piring mungkin sebenarnya bukan masalah sebesar itu
      Roomba generasi awal juga sering berantakan, tetapi pasar tetap menerimanya dan akhirnya teknologinya berkembang
      Menurutku yang penting adalah masuk ke pasar lebih dulu sambil mengumpulkan data meski belum sempurna
    • Aku juga sudah sering memecahkan piring saat mengosongkan mesin pencuci piring
      Tidak ada sistem yang sempurna
    • Sebagai manusia pun aku memecahkan piring sekitar dua kali sebulan
      Kalau robot bisa lebih baik dari itu, justru itu peningkatan
    • Di bidang robotika masih belum ada data berskala internet
      Jadi menurutku tidak jujur kalau ada yang mengklaim sudah punya model setingkat GPT
  • Aku sedang bertanya-tanya apakah harus terus memakai model yang sekarang
    sampai Google resmi merilis Gemini Flash 3.1