Google SIMA 2 - agen yang bermain, bernalar, dan belajar bersama Anda di dunia virtual 3D

(deepmind.google)

1 poin oleh GN⁺ 2025-11-14 | 1 komentar | Bagikan ke WhatsApp

SIMA 2 yang mengintegrasikan model Gemini berkembang melampaui sekadar mengikuti perintah bahasa, menjadi agen AI untuk lingkungan virtual 3D yang memahami tujuan pengguna, bernalar sendiri, dan berinteraksi
Berbeda dari versi sebelumnya yang menjalankan lebih dari 600 tindakan berbasis bahasa, versi ini dilengkapi kemampuan penalaran, percakapan, dan peningkatan diri, sehingga dapat melakukan tindakan berorientasi tujuan bahkan di game baru
Menunjukkan kemampuan generalisasi tinggi bahkan pada game yang tidak dilatih seperti MineDojo dan ASKA, serta mencapai tingkat penyelesaian tugas yang mendekati pemain manusia
Menerapkan struktur loop peningkatan diri yang memungkinkan agen mengumpulkan pengalaman sendiri dan meningkatkan performa tanpa data manusia
Kemajuan ini meletakkan dasar bagi penerapan embodied intelligence umum dan robotika

Ikhtisar SIMA 2

SIMA 2 adalah agen AI berbasis Gemini yang dikembangkan Google DeepMind, sebuah sistem yang bermain dan belajar bersama manusia di lingkungan virtual 3D
Versi awal SIMA berfokus pada menerjemahkan perintah bahasa menjadi tindakan, tetapi SIMA 2 menambahkan kemampuan inferensi tujuan, percakapan, dan peningkatan diri
Model ini menunjukkan kemajuan menuju AGI (kecerdasan umum buatan) dan memiliki makna penting bagi riset robotika serta AI berwujud

Reasoning (kemampuan bernalar)

SIMA 1 menjalankan lebih dari 600 perintah seperti “belok kiri” dan “naik tangga”, tetapi dilakukan dengan melihat layar dan mengoperasikan kontrol tanpa akses ke mekanisme internal game
SIMA 2 menanamkan model Gemini, sehingga melampaui eksekusi perintah sederhana menjadi mampu memahami tujuan dan berpikir secara logis
Data pelatihan disusun dari campuran video demonstrasi manusia dan label yang dihasilkan Gemini, dan agen dapat menjelaskan rencana tindakan serta langkah-langkahnya sendiri
Hasil pengujian menunjukkan pengguna merasakan interaksi dengan SIMA 2 sebagai kolaborasi, bukan perintah, dan pelatihan serta evaluasi dilakukan di berbagai lingkungan game
Berkat mesin penalaran Gemini, terwujud AI berwujud yang mengintegrasikan persepsi, pemahaman, dan tindakan di lingkungan 3D yang kompleks

Generalization (kemampuan generalisasi)

Integrasi Gemini meningkatkan kemampuan memahami dan menjalankan perintah yang kompleks dan bernuansa
Bahkan pada game yang tidak dilatih (misalnya ASKA, MineDojo), model ini menunjukkan tingkat keberhasilan tinggi dan mencapai tingkat penyelesaian tugas yang mendekati level manusia
Memiliki kemampuan transfer konsep, seperti memindahkan konsep “mining” ke “harvesting” di game lain
Mampu memahami perintah multibahasa dan emoji, serta memproses input multimodal (seperti gambar)
Saat digabungkan dengan Genie 3, model ini membuktikan kemampuan adaptasi tinggi dengan tetap mempertahankan orientasi arah dan perilaku berorientasi tujuan bahkan di dunia virtual yang baru dibuat

Self-Improvement (peningkatan diri)

SIMA 2 meningkatkan performa tanpa campur tangan manusia melalui loop pembelajaran mandiri
- Gemini memberikan tugas awal dan estimasi imbalan
- Berdasarkan itu, SIMA 2 membangun bank data pengalaman miliknya sendiri dan memanfaatkannya untuk pembelajaran lanjutan
Bahkan tugas yang gagal pun dipelajari ulang secara berulang untuk diperbaiki, dan model ini dapat belajar di game baru tanpa demonstrasi manusia
Di lingkungan Genie 3 pun, peningkatan diri diulang terus, dan terkonfirmasi peningkatan performa melalui pembelajaran multi-generasi
Struktur ini menunjukkan potensi untuk berkembang menjadi AI berwujud yang terus belajar sendiri secara berkelanjutan

Future Directions (arah ke depan)

SIMA 2 berperan sebagai ajang uji bagi kecerdasan umum yang menjalankan penalaran kompleks dan pembelajaran mandiri di berbagai lingkungan game
Keterbatasan yang disorot mencakup pelaksanaan tugas jangka panjang, penalaran multi-tahap, keterbatasan memori pendek, dan penanganan kompleksitas visual
Namun, dengan menggabungkan data multi-dunia dan kemampuan bernalar Gemini, model ini tervalidasi sebagai agen umum yang menyatukan fungsi dari berbagai sistem khusus
Kemampuan yang diperoleh dalam eksplorasi, penggunaan alat, dan kolaborasi menjadi fondasi utama untuk diperluas ke AI robot fisik di masa depan

Responsible Development (pengembangan yang bertanggung jawab)

SIMA 2 berorientasi pada interaksi yang berpusat pada manusia, dan mengembangkan teknologi inti seperti kemampuan peningkatan diri secara bertanggung jawab
Google DeepMind bekerja sama dengan tim Responsible Development & Innovation untuk meninjau aspek keselamatan sejak tahap awal
Saat ini sistem ini hadir dalam bentuk pratinjau riset terbatas, dengan akses awal hanya diberikan kepada sebagian kalangan akademik dan pengembang game
Melalui pendekatan ini, mereka mengumpulkan umpan balik dan evaluasi risiko, dengan tujuan kemajuan teknologi yang bertanggung jawab di masa depan

1 komentar

GN⁺ 2025-11-14

Opini Hacker News

AI yang bermain video game itu keren, tetapi hal yang benar-benar mengejutkan dari SIMA 2 adalah bahwa ia mengendalikan mouse secara langsung dan membaca layar pada lebih dari 30 frame per detik
Agen pengoperasi komputer saat ini terlalu lambat, jadi ini benar-benar level yang berbeda. Penasaran seperti apa arsitektur internalnya
- Di zaman sekarang, lebih keren lagi bahwa manusia masih bisa bersemangat terhadap sesuatu. Karena AI sedang menggantikan semua hal yang biasa kita lakukan
- Aku sangat butuh agen AI yang mengoperasikan smartphone-ku
  Maksudku sesuatu yang bisa menjalankan perintah di level layar seperti “Buka Chrome”, “Buka xyz.com”, “Klik login”
- Mengendalikan mouse secara langsung?
- Bukankah mesin memang bisa memainkan game per frame?
- Sepertinya ini mungkin dilakukan dengan menerima pesan HID melalui dxcam Python dan Windows Hook API
Kesenjangan antara kontrol tingkat tinggi dan kontrol tingkat rendah pada robot makin mengecil
Berdasarkan ribuan jam data pelatihan per tugas, robot sedang dilatih agar bisa melakukan tugas tertentu dalam konteks tertentu
Robot dikendalikan dengan perintah tingkat rendah seperti “kosongkan mesin pencuci piring”, “ikuti tindakanku”, “tarik tali”
Jika pendekatan seperti ini digabungkan dengan agen kontrol tingkat tinggi seperti SIMA 2, robot yang berguna di dunia nyata bisa tercipta
- Aku sedang meneliti animasi karakter berbasis fisika, dan sepertinya masalah ini tidak akan segera terselesaikan hanya dengan mengumpulkan lebih banyak data
- Aku kurang paham apa maksudnya “bekerja seperti video game”
  Aku penasaran kenapa input seperti ini dianggap tingkat rendah, dan bagaimana ia berinteraksi dengan agen kontrol tingkat tinggi seperti SIMA 2
  Apakah SIMA 2 punya struktur yang mengubah perintah seperti “kosongkan mesin pencuci piring” menjadi input tombol nyata atau manipulasi antarmuka?
Ini mengingatkanku pada cerita pendek Ted Chiang, "The Lifecycle of Software Objects"
Mungkin langkah berikutnya adalah memasukkan AI digient ini ke robot Figure 03
- Google mungkin akan melatih AI khusus untuk kontrol robot secara terpisah
  Bahkan dalam eksperimen Butter Bench, LLM umum digunakan untuk mengendalikan robot penyedot debu,
  dan saat baterainya habis, ia meninggalkan log emosional seperti "kecemasan docking" sambil panik. Hasilnya lucu tapi menarik
Menarik bahwa SIMA 2 dijelaskan makin mampu melakukan tugas yang semakin kompleks melalui umpan balik berbasis Gemini
Karena data dari pengalamannya sendiri dipakai untuk melatih versi berikutnya, ini terlihat seperti struktur yang bisa memperbaiki diri
Apakah SIMA adalah lapisan agen yang berjalan di atas Gemini?
- Kedengarannya begitu bagiku juga. Sepertinya dua sistem itu terhubung lewat antarmuka teks
Aku jadi berpikir apakah teknologi seperti ini pada akhirnya bisa merusak e-sports
Jika AI bereaksi lebih cepat daripada manusia dan tidak lelah, pada akhirnya game seperti MMO atau FPS bisa penuh dengan AI
- Olahraga pada akhirnya adalah sekumpulan aturan. Kuncinya adalah mencegah kecurangan
  Justru AI yang bagus bisa mengurangi kerja berulang dan membuka genre game baru yang membuat pemain fokus pada keputusan strategis
- Di catur pun AI sudah lebih kuat daripada manusia, tetapi kesenangannya masih tetap ada
  Mirip seperti itu, bahkan jika muncul dinamika manusia vs AI, rasanya tetap akan menyenangkan
- Awalnya akan jadi berita saat AI mengalahkan manusia, tapi segera rasa novelnya akan hilang
  Pada akhirnya penggunaan AI akan dipandang secara sosial sebagai ‘alat bantu’, seperti cheat atau skrip
- Dulu di World of Warcraft, bot druid yang dibuat dengan reinforcement learning mengalahkan semua manusia dalam pertandingan 2v2
  Dalam FPS ini akan terlalu kentara, tetapi pada game seperti turn-based atau MMORPG yang koordinasi tangan-matanya lebih ringan, akan sulit dibedakan
  Justru cheat halus seperti ESP lebih menjadi ancaman bagi e-sports
- Pada akhirnya MMO bisa rusak seperti poker online
Aku ingin game yang lebih cerdas
Maksudku struktur seperti game survival, di mana setelah melewati fase awal mengumpulkan kayu dan batu, saat teknologi berkembang ia beralih ke otomatisasi
NPC dibuat menambang sumber daya, menyediakan makanan dan pertahanan, lalu mencapai tujuan yang lebih besar
Pemain menikmati fantasi menjadi ‘bos besar’ yang memberi perintah kepada karakter-karakter cerdas
- Ada framework open source bernama Mindcraft
  Ini adalah sistem bot cerdas yang memakai LLM seperti GPT-4 atau Gemini untuk mengumpulkan sumber daya, membangun, dan berkolaborasi di Minecraft
- Aku penasaran apakah SIMA 2 bisa mempelajari iron farm atau balai perdagangan di Minecraft sendiri
  Bisakah ia menyadari bahwa besi itu langka lalu termotivasi karenanya?
  Jika tujuannya hanya ‘menamatkan game’, mungkin ia malah langsung mencoba membunuh Ender Dragon
- Pada akhirnya itu mirip seperti bermain The Sims
  Hanya saja versinya bukan ‘mendekorasi rumah’, melainkan ‘menambang mineral untuk senjata takdir’
Aku berharap Google kembali ke budaya riset terbuka seperti dulu
Belakangan ini mereka cenderung melakukan eksperimen secara tertutup dan hanya mengeluarkan siaran pers
Akan lebih baik jika dirilis sebagai open source dan hanya ditutup saat benar-benar perlu
Riset mereka begitu mengesankan sehingga aku makin ingin terlibat langsung
- Aku juga sangat setuju. Aku ingin mencobanya sendiri
- Dreamer v3 sudah dirilis, apakah v4 juga akan segera keluar?
Ini memang proyek riset, tetapi aku penasaran dengan langkah berikutnya
Bisakah apa yang dipelajari di dunia virtual ditransfer ke robot dunia nyata?
Atau apakah perlu dilatih terpisah di dunia nyata?
Juga, untuk mengatasi lingkungan game yang berbeda dari fisika dunia nyata, bukankah diperlukan dunia simulasi yang lebih canggih?
- Tujuannya adalah menerapkan cara belajar di dunia virtual ke dunia nyata
  Jika muncul model dunia berpresisi tinggi, robot bisa dilatih di dalamnya lalu digeneralisasikan ke dunia nyata
  Saat ini kita masih berada di tahap membangun fondasinya
- Ini dikenal sebagai masalah sim2real dalam robotika. Layak untuk dibaca
Di video demo pada menit 0:52 terlihat ada kesalahan tata bahasa, jadi aku curiga anotasinya diedit setelahnya
Apakah Google lagi-lagi melebih-lebihkan untuk pemasaran?
- Mungkin mereka mengubah dialog dalam game “Pergi ke rumah yang terlihat seperti tomat matang!”
  menjadi bentuk perintah, “Pergi ke rumah tomat”
  Meski begitu, sumbu Y pada grafik itu tampak jauh lebih masuk akal dibanding benchmark lain belakangan ini
- Memang terlihat bahwa tepat sebelum adegan itu, pengguna mengetik “ripe tomato”
  Di versi ringkasnya itu dihilangkan, tetapi dalam konteksnya ekspresi itu memang ada
Akan bagus jika teknologi seperti ini berjalan secara lokal sebagai agen pendamping game
Jika bisa mengambil alih pekerjaan berulang, rasanya aku bisa menikmati game lebih lama
Bahkan jika tidak sempurna, mungkin justru itu yang membuatnya menyenangkan
- Justru kalau AI yang memainkan game-ku, aku bisa memakai waktu itu untuk pekerjaan sungguhan seperti bersih-bersih atau mencuci
  Sekarang bahkan hal-hal merepotkan seperti puisi, lukisan, dan game pun bisa diserahkan
- Kalau game sampai harus disuruhkan karena tidak menyenangkan, itu aneh. Hakikat game adalah memainkannya sendiri
- Seperti “Skeeball → Virtual Skeeball → Virtual Virtual Skeeball”,
  kalau AI yang menggantikan, pada akhirnya orang akan kehilangan minat. Game dirancang berdasarkan keseimbangan antara kerja dan imbalan
- Jika pekerjaan berulang harus didelegasikan, berarti desain gamenya yang salah
- Aku juga pernah menulis skrip auto-mining dengan AutoHotkey di Terraria
  Aku membuatnya menambang blok berdasarkan koordinat, tetapi kalau tidak melihat layar, ia bisa jatuh ke lubang monster. Itu benar-benar ‘bot buta’

Google SIMA 2 - agen yang bermain, bernalar, dan belajar bersama Anda di dunia virtual 3D

Ikhtisar SIMA 2

Reasoning (kemampuan bernalar)

Generalization (kemampuan generalisasi)

Self-Improvement (peningkatan diri)

Future Directions (arah ke depan)

Responsible Development (pengembangan yang bertanggung jawab)

Bacaan terkait

1 komentar

Opini Hacker News