Google SIMA 2 - agen yang bermain, bernalar, dan belajar bersama Anda di dunia virtual 3D
(deepmind.google)- SIMA 2 yang mengintegrasikan model Gemini berkembang melampaui sekadar mengikuti perintah bahasa, menjadi agen AI untuk lingkungan virtual 3D yang memahami tujuan pengguna, bernalar sendiri, dan berinteraksi
- Berbeda dari versi sebelumnya yang menjalankan lebih dari 600 tindakan berbasis bahasa, versi ini dilengkapi kemampuan penalaran, percakapan, dan peningkatan diri, sehingga dapat melakukan tindakan berorientasi tujuan bahkan di game baru
- Menunjukkan kemampuan generalisasi tinggi bahkan pada game yang tidak dilatih seperti MineDojo dan ASKA, serta mencapai tingkat penyelesaian tugas yang mendekati pemain manusia
- Menerapkan struktur loop peningkatan diri yang memungkinkan agen mengumpulkan pengalaman sendiri dan meningkatkan performa tanpa data manusia
- Kemajuan ini meletakkan dasar bagi penerapan embodied intelligence umum dan robotika
Ikhtisar SIMA 2
- SIMA 2 adalah agen AI berbasis Gemini yang dikembangkan Google DeepMind, sebuah sistem yang bermain dan belajar bersama manusia di lingkungan virtual 3D
- Versi awal SIMA berfokus pada menerjemahkan perintah bahasa menjadi tindakan, tetapi SIMA 2 menambahkan kemampuan inferensi tujuan, percakapan, dan peningkatan diri
- Model ini menunjukkan kemajuan menuju AGI (kecerdasan umum buatan) dan memiliki makna penting bagi riset robotika serta AI berwujud
Reasoning (kemampuan bernalar)
- SIMA 1 menjalankan lebih dari 600 perintah seperti “belok kiri” dan “naik tangga”, tetapi dilakukan dengan melihat layar dan mengoperasikan kontrol tanpa akses ke mekanisme internal game
- SIMA 2 menanamkan model Gemini, sehingga melampaui eksekusi perintah sederhana menjadi mampu memahami tujuan dan berpikir secara logis
- Data pelatihan disusun dari campuran video demonstrasi manusia dan label yang dihasilkan Gemini, dan agen dapat menjelaskan rencana tindakan serta langkah-langkahnya sendiri
- Hasil pengujian menunjukkan pengguna merasakan interaksi dengan SIMA 2 sebagai kolaborasi, bukan perintah, dan pelatihan serta evaluasi dilakukan di berbagai lingkungan game
- Berkat mesin penalaran Gemini, terwujud AI berwujud yang mengintegrasikan persepsi, pemahaman, dan tindakan di lingkungan 3D yang kompleks
Generalization (kemampuan generalisasi)
- Integrasi Gemini meningkatkan kemampuan memahami dan menjalankan perintah yang kompleks dan bernuansa
- Bahkan pada game yang tidak dilatih (misalnya ASKA, MineDojo), model ini menunjukkan tingkat keberhasilan tinggi dan mencapai tingkat penyelesaian tugas yang mendekati level manusia
- Memiliki kemampuan transfer konsep, seperti memindahkan konsep “mining” ke “harvesting” di game lain
- Mampu memahami perintah multibahasa dan emoji, serta memproses input multimodal (seperti gambar)
- Saat digabungkan dengan Genie 3, model ini membuktikan kemampuan adaptasi tinggi dengan tetap mempertahankan orientasi arah dan perilaku berorientasi tujuan bahkan di dunia virtual yang baru dibuat
Self-Improvement (peningkatan diri)
- SIMA 2 meningkatkan performa tanpa campur tangan manusia melalui loop pembelajaran mandiri
- Gemini memberikan tugas awal dan estimasi imbalan
- Berdasarkan itu, SIMA 2 membangun bank data pengalaman miliknya sendiri dan memanfaatkannya untuk pembelajaran lanjutan
- Bahkan tugas yang gagal pun dipelajari ulang secara berulang untuk diperbaiki, dan model ini dapat belajar di game baru tanpa demonstrasi manusia
- Di lingkungan Genie 3 pun, peningkatan diri diulang terus, dan terkonfirmasi peningkatan performa melalui pembelajaran multi-generasi
- Struktur ini menunjukkan potensi untuk berkembang menjadi AI berwujud yang terus belajar sendiri secara berkelanjutan
Future Directions (arah ke depan)
- SIMA 2 berperan sebagai ajang uji bagi kecerdasan umum yang menjalankan penalaran kompleks dan pembelajaran mandiri di berbagai lingkungan game
- Keterbatasan yang disorot mencakup pelaksanaan tugas jangka panjang, penalaran multi-tahap, keterbatasan memori pendek, dan penanganan kompleksitas visual
- Namun, dengan menggabungkan data multi-dunia dan kemampuan bernalar Gemini, model ini tervalidasi sebagai agen umum yang menyatukan fungsi dari berbagai sistem khusus
- Kemampuan yang diperoleh dalam eksplorasi, penggunaan alat, dan kolaborasi menjadi fondasi utama untuk diperluas ke AI robot fisik di masa depan
Responsible Development (pengembangan yang bertanggung jawab)
- SIMA 2 berorientasi pada interaksi yang berpusat pada manusia, dan mengembangkan teknologi inti seperti kemampuan peningkatan diri secara bertanggung jawab
- Google DeepMind bekerja sama dengan tim Responsible Development & Innovation untuk meninjau aspek keselamatan sejak tahap awal
- Saat ini sistem ini hadir dalam bentuk pratinjau riset terbatas, dengan akses awal hanya diberikan kepada sebagian kalangan akademik dan pengembang game
- Melalui pendekatan ini, mereka mengumpulkan umpan balik dan evaluasi risiko, dengan tujuan kemajuan teknologi yang bertanggung jawab di masa depan
1 komentar
Opini Hacker News
AI yang bermain video game itu keren, tetapi hal yang benar-benar mengejutkan dari SIMA 2 adalah bahwa ia mengendalikan mouse secara langsung dan membaca layar pada lebih dari 30 frame per detik
Agen pengoperasi komputer saat ini terlalu lambat, jadi ini benar-benar level yang berbeda. Penasaran seperti apa arsitektur internalnya
Maksudku sesuatu yang bisa menjalankan perintah di level layar seperti “Buka Chrome”, “Buka xyz.com”, “Klik login”
Kesenjangan antara kontrol tingkat tinggi dan kontrol tingkat rendah pada robot makin mengecil
Berdasarkan ribuan jam data pelatihan per tugas, robot sedang dilatih agar bisa melakukan tugas tertentu dalam konteks tertentu
Robot dikendalikan dengan perintah tingkat rendah seperti “kosongkan mesin pencuci piring”, “ikuti tindakanku”, “tarik tali”
Jika pendekatan seperti ini digabungkan dengan agen kontrol tingkat tinggi seperti SIMA 2, robot yang berguna di dunia nyata bisa tercipta
Aku penasaran kenapa input seperti ini dianggap tingkat rendah, dan bagaimana ia berinteraksi dengan agen kontrol tingkat tinggi seperti SIMA 2
Apakah SIMA 2 punya struktur yang mengubah perintah seperti “kosongkan mesin pencuci piring” menjadi input tombol nyata atau manipulasi antarmuka?
Ini mengingatkanku pada cerita pendek Ted Chiang, "The Lifecycle of Software Objects"
Mungkin langkah berikutnya adalah memasukkan AI digient ini ke robot Figure 03
Bahkan dalam eksperimen Butter Bench, LLM umum digunakan untuk mengendalikan robot penyedot debu,
dan saat baterainya habis, ia meninggalkan log emosional seperti "kecemasan docking" sambil panik. Hasilnya lucu tapi menarik
Menarik bahwa SIMA 2 dijelaskan makin mampu melakukan tugas yang semakin kompleks melalui umpan balik berbasis Gemini
Karena data dari pengalamannya sendiri dipakai untuk melatih versi berikutnya, ini terlihat seperti struktur yang bisa memperbaiki diri
Apakah SIMA adalah lapisan agen yang berjalan di atas Gemini?
Aku jadi berpikir apakah teknologi seperti ini pada akhirnya bisa merusak e-sports
Jika AI bereaksi lebih cepat daripada manusia dan tidak lelah, pada akhirnya game seperti MMO atau FPS bisa penuh dengan AI
Justru AI yang bagus bisa mengurangi kerja berulang dan membuka genre game baru yang membuat pemain fokus pada keputusan strategis
Mirip seperti itu, bahkan jika muncul dinamika manusia vs AI, rasanya tetap akan menyenangkan
Pada akhirnya penggunaan AI akan dipandang secara sosial sebagai ‘alat bantu’, seperti cheat atau skrip
Dalam FPS ini akan terlalu kentara, tetapi pada game seperti turn-based atau MMORPG yang koordinasi tangan-matanya lebih ringan, akan sulit dibedakan
Justru cheat halus seperti ESP lebih menjadi ancaman bagi e-sports
Aku ingin game yang lebih cerdas
Maksudku struktur seperti game survival, di mana setelah melewati fase awal mengumpulkan kayu dan batu, saat teknologi berkembang ia beralih ke otomatisasi
NPC dibuat menambang sumber daya, menyediakan makanan dan pertahanan, lalu mencapai tujuan yang lebih besar
Pemain menikmati fantasi menjadi ‘bos besar’ yang memberi perintah kepada karakter-karakter cerdas
Ini adalah sistem bot cerdas yang memakai LLM seperti GPT-4 atau Gemini untuk mengumpulkan sumber daya, membangun, dan berkolaborasi di Minecraft
Bisakah ia menyadari bahwa besi itu langka lalu termotivasi karenanya?
Jika tujuannya hanya ‘menamatkan game’, mungkin ia malah langsung mencoba membunuh Ender Dragon
Hanya saja versinya bukan ‘mendekorasi rumah’, melainkan ‘menambang mineral untuk senjata takdir’
Aku berharap Google kembali ke budaya riset terbuka seperti dulu
Belakangan ini mereka cenderung melakukan eksperimen secara tertutup dan hanya mengeluarkan siaran pers
Akan lebih baik jika dirilis sebagai open source dan hanya ditutup saat benar-benar perlu
Riset mereka begitu mengesankan sehingga aku makin ingin terlibat langsung
Ini memang proyek riset, tetapi aku penasaran dengan langkah berikutnya
Bisakah apa yang dipelajari di dunia virtual ditransfer ke robot dunia nyata?
Atau apakah perlu dilatih terpisah di dunia nyata?
Juga, untuk mengatasi lingkungan game yang berbeda dari fisika dunia nyata, bukankah diperlukan dunia simulasi yang lebih canggih?
Jika muncul model dunia berpresisi tinggi, robot bisa dilatih di dalamnya lalu digeneralisasikan ke dunia nyata
Saat ini kita masih berada di tahap membangun fondasinya
Di video demo pada menit 0:52 terlihat ada kesalahan tata bahasa, jadi aku curiga anotasinya diedit setelahnya
Apakah Google lagi-lagi melebih-lebihkan untuk pemasaran?
menjadi bentuk perintah, “Pergi ke rumah tomat”
Meski begitu, sumbu Y pada grafik itu tampak jauh lebih masuk akal dibanding benchmark lain belakangan ini
Di versi ringkasnya itu dihilangkan, tetapi dalam konteksnya ekspresi itu memang ada
Akan bagus jika teknologi seperti ini berjalan secara lokal sebagai agen pendamping game
Jika bisa mengambil alih pekerjaan berulang, rasanya aku bisa menikmati game lebih lama
Bahkan jika tidak sempurna, mungkin justru itu yang membuatnya menyenangkan
Sekarang bahkan hal-hal merepotkan seperti puisi, lukisan, dan game pun bisa diserahkan
kalau AI yang menggantikan, pada akhirnya orang akan kehilangan minat. Game dirancang berdasarkan keseimbangan antara kerja dan imbalan
Aku membuatnya menambang blok berdasarkan koordinat, tetapi kalau tidak melihat layar, ia bisa jatuh ke lubang monster. Itu benar-benar ‘bot buta’