1 poin oleh GN⁺ 2025-11-14 | 1 komentar | Bagikan ke WhatsApp
  • SIMA 2 yang mengintegrasikan model Gemini berkembang melampaui sekadar mengikuti perintah bahasa, menjadi agen AI untuk lingkungan virtual 3D yang memahami tujuan pengguna, bernalar sendiri, dan berinteraksi
  • Berbeda dari versi sebelumnya yang menjalankan lebih dari 600 tindakan berbasis bahasa, versi ini dilengkapi kemampuan penalaran, percakapan, dan peningkatan diri, sehingga dapat melakukan tindakan berorientasi tujuan bahkan di game baru
  • Menunjukkan kemampuan generalisasi tinggi bahkan pada game yang tidak dilatih seperti MineDojo dan ASKA, serta mencapai tingkat penyelesaian tugas yang mendekati pemain manusia
  • Menerapkan struktur loop peningkatan diri yang memungkinkan agen mengumpulkan pengalaman sendiri dan meningkatkan performa tanpa data manusia
  • Kemajuan ini meletakkan dasar bagi penerapan embodied intelligence umum dan robotika

Ikhtisar SIMA 2

  • SIMA 2 adalah agen AI berbasis Gemini yang dikembangkan Google DeepMind, sebuah sistem yang bermain dan belajar bersama manusia di lingkungan virtual 3D
  • Versi awal SIMA berfokus pada menerjemahkan perintah bahasa menjadi tindakan, tetapi SIMA 2 menambahkan kemampuan inferensi tujuan, percakapan, dan peningkatan diri
  • Model ini menunjukkan kemajuan menuju AGI (kecerdasan umum buatan) dan memiliki makna penting bagi riset robotika serta AI berwujud

Reasoning (kemampuan bernalar)

  • SIMA 1 menjalankan lebih dari 600 perintah seperti “belok kiri” dan “naik tangga”, tetapi dilakukan dengan melihat layar dan mengoperasikan kontrol tanpa akses ke mekanisme internal game
  • SIMA 2 menanamkan model Gemini, sehingga melampaui eksekusi perintah sederhana menjadi mampu memahami tujuan dan berpikir secara logis
  • Data pelatihan disusun dari campuran video demonstrasi manusia dan label yang dihasilkan Gemini, dan agen dapat menjelaskan rencana tindakan serta langkah-langkahnya sendiri
  • Hasil pengujian menunjukkan pengguna merasakan interaksi dengan SIMA 2 sebagai kolaborasi, bukan perintah, dan pelatihan serta evaluasi dilakukan di berbagai lingkungan game
  • Berkat mesin penalaran Gemini, terwujud AI berwujud yang mengintegrasikan persepsi, pemahaman, dan tindakan di lingkungan 3D yang kompleks

Generalization (kemampuan generalisasi)

  • Integrasi Gemini meningkatkan kemampuan memahami dan menjalankan perintah yang kompleks dan bernuansa
  • Bahkan pada game yang tidak dilatih (misalnya ASKA, MineDojo), model ini menunjukkan tingkat keberhasilan tinggi dan mencapai tingkat penyelesaian tugas yang mendekati level manusia
  • Memiliki kemampuan transfer konsep, seperti memindahkan konsep “mining” ke “harvesting” di game lain
  • Mampu memahami perintah multibahasa dan emoji, serta memproses input multimodal (seperti gambar)
  • Saat digabungkan dengan Genie 3, model ini membuktikan kemampuan adaptasi tinggi dengan tetap mempertahankan orientasi arah dan perilaku berorientasi tujuan bahkan di dunia virtual yang baru dibuat

Self-Improvement (peningkatan diri)

  • SIMA 2 meningkatkan performa tanpa campur tangan manusia melalui loop pembelajaran mandiri
    • Gemini memberikan tugas awal dan estimasi imbalan
    • Berdasarkan itu, SIMA 2 membangun bank data pengalaman miliknya sendiri dan memanfaatkannya untuk pembelajaran lanjutan
  • Bahkan tugas yang gagal pun dipelajari ulang secara berulang untuk diperbaiki, dan model ini dapat belajar di game baru tanpa demonstrasi manusia
  • Di lingkungan Genie 3 pun, peningkatan diri diulang terus, dan terkonfirmasi peningkatan performa melalui pembelajaran multi-generasi
  • Struktur ini menunjukkan potensi untuk berkembang menjadi AI berwujud yang terus belajar sendiri secara berkelanjutan

Future Directions (arah ke depan)

  • SIMA 2 berperan sebagai ajang uji bagi kecerdasan umum yang menjalankan penalaran kompleks dan pembelajaran mandiri di berbagai lingkungan game
  • Keterbatasan yang disorot mencakup pelaksanaan tugas jangka panjang, penalaran multi-tahap, keterbatasan memori pendek, dan penanganan kompleksitas visual
  • Namun, dengan menggabungkan data multi-dunia dan kemampuan bernalar Gemini, model ini tervalidasi sebagai agen umum yang menyatukan fungsi dari berbagai sistem khusus
  • Kemampuan yang diperoleh dalam eksplorasi, penggunaan alat, dan kolaborasi menjadi fondasi utama untuk diperluas ke AI robot fisik di masa depan

Responsible Development (pengembangan yang bertanggung jawab)

  • SIMA 2 berorientasi pada interaksi yang berpusat pada manusia, dan mengembangkan teknologi inti seperti kemampuan peningkatan diri secara bertanggung jawab
  • Google DeepMind bekerja sama dengan tim Responsible Development & Innovation untuk meninjau aspek keselamatan sejak tahap awal
  • Saat ini sistem ini hadir dalam bentuk pratinjau riset terbatas, dengan akses awal hanya diberikan kepada sebagian kalangan akademik dan pengembang game
  • Melalui pendekatan ini, mereka mengumpulkan umpan balik dan evaluasi risiko, dengan tujuan kemajuan teknologi yang bertanggung jawab di masa depan

1 komentar

 
GN⁺ 2025-11-14
Opini Hacker News
  • AI yang bermain video game itu keren, tetapi hal yang benar-benar mengejutkan dari SIMA 2 adalah bahwa ia mengendalikan mouse secara langsung dan membaca layar pada lebih dari 30 frame per detik
    Agen pengoperasi komputer saat ini terlalu lambat, jadi ini benar-benar level yang berbeda. Penasaran seperti apa arsitektur internalnya

    • Di zaman sekarang, lebih keren lagi bahwa manusia masih bisa bersemangat terhadap sesuatu. Karena AI sedang menggantikan semua hal yang biasa kita lakukan
    • Aku sangat butuh agen AI yang mengoperasikan smartphone-ku
      Maksudku sesuatu yang bisa menjalankan perintah di level layar seperti “Buka Chrome”, “Buka xyz.com”, “Klik login”
    • Mengendalikan mouse secara langsung?
    • Bukankah mesin memang bisa memainkan game per frame?
    • Sepertinya ini mungkin dilakukan dengan menerima pesan HID melalui dxcam Python dan Windows Hook API
  • Kesenjangan antara kontrol tingkat tinggi dan kontrol tingkat rendah pada robot makin mengecil
    Berdasarkan ribuan jam data pelatihan per tugas, robot sedang dilatih agar bisa melakukan tugas tertentu dalam konteks tertentu
    Robot dikendalikan dengan perintah tingkat rendah seperti “kosongkan mesin pencuci piring”, “ikuti tindakanku”, “tarik tali”
    Jika pendekatan seperti ini digabungkan dengan agen kontrol tingkat tinggi seperti SIMA 2, robot yang berguna di dunia nyata bisa tercipta

    • Aku sedang meneliti animasi karakter berbasis fisika, dan sepertinya masalah ini tidak akan segera terselesaikan hanya dengan mengumpulkan lebih banyak data
    • Aku kurang paham apa maksudnya “bekerja seperti video game”
      Aku penasaran kenapa input seperti ini dianggap tingkat rendah, dan bagaimana ia berinteraksi dengan agen kontrol tingkat tinggi seperti SIMA 2
      Apakah SIMA 2 punya struktur yang mengubah perintah seperti “kosongkan mesin pencuci piring” menjadi input tombol nyata atau manipulasi antarmuka?
  • Ini mengingatkanku pada cerita pendek Ted Chiang, "The Lifecycle of Software Objects"
    Mungkin langkah berikutnya adalah memasukkan AI digient ini ke robot Figure 03

    • Google mungkin akan melatih AI khusus untuk kontrol robot secara terpisah
      Bahkan dalam eksperimen Butter Bench, LLM umum digunakan untuk mengendalikan robot penyedot debu,
      dan saat baterainya habis, ia meninggalkan log emosional seperti "kecemasan docking" sambil panik. Hasilnya lucu tapi menarik
  • Menarik bahwa SIMA 2 dijelaskan makin mampu melakukan tugas yang semakin kompleks melalui umpan balik berbasis Gemini
    Karena data dari pengalamannya sendiri dipakai untuk melatih versi berikutnya, ini terlihat seperti struktur yang bisa memperbaiki diri
    Apakah SIMA adalah lapisan agen yang berjalan di atas Gemini?

    • Kedengarannya begitu bagiku juga. Sepertinya dua sistem itu terhubung lewat antarmuka teks
  • Aku jadi berpikir apakah teknologi seperti ini pada akhirnya bisa merusak e-sports
    Jika AI bereaksi lebih cepat daripada manusia dan tidak lelah, pada akhirnya game seperti MMO atau FPS bisa penuh dengan AI

    • Olahraga pada akhirnya adalah sekumpulan aturan. Kuncinya adalah mencegah kecurangan
      Justru AI yang bagus bisa mengurangi kerja berulang dan membuka genre game baru yang membuat pemain fokus pada keputusan strategis
    • Di catur pun AI sudah lebih kuat daripada manusia, tetapi kesenangannya masih tetap ada
      Mirip seperti itu, bahkan jika muncul dinamika manusia vs AI, rasanya tetap akan menyenangkan
    • Awalnya akan jadi berita saat AI mengalahkan manusia, tapi segera rasa novelnya akan hilang
      Pada akhirnya penggunaan AI akan dipandang secara sosial sebagai ‘alat bantu’, seperti cheat atau skrip
    • Dulu di World of Warcraft, bot druid yang dibuat dengan reinforcement learning mengalahkan semua manusia dalam pertandingan 2v2
      Dalam FPS ini akan terlalu kentara, tetapi pada game seperti turn-based atau MMORPG yang koordinasi tangan-matanya lebih ringan, akan sulit dibedakan
      Justru cheat halus seperti ESP lebih menjadi ancaman bagi e-sports
    • Pada akhirnya MMO bisa rusak seperti poker online
  • Aku ingin game yang lebih cerdas
    Maksudku struktur seperti game survival, di mana setelah melewati fase awal mengumpulkan kayu dan batu, saat teknologi berkembang ia beralih ke otomatisasi
    NPC dibuat menambang sumber daya, menyediakan makanan dan pertahanan, lalu mencapai tujuan yang lebih besar
    Pemain menikmati fantasi menjadi ‘bos besar’ yang memberi perintah kepada karakter-karakter cerdas

    • Ada framework open source bernama Mindcraft
      Ini adalah sistem bot cerdas yang memakai LLM seperti GPT-4 atau Gemini untuk mengumpulkan sumber daya, membangun, dan berkolaborasi di Minecraft
    • Aku penasaran apakah SIMA 2 bisa mempelajari iron farm atau balai perdagangan di Minecraft sendiri
      Bisakah ia menyadari bahwa besi itu langka lalu termotivasi karenanya?
      Jika tujuannya hanya ‘menamatkan game’, mungkin ia malah langsung mencoba membunuh Ender Dragon
    • Pada akhirnya itu mirip seperti bermain The Sims
      Hanya saja versinya bukan ‘mendekorasi rumah’, melainkan ‘menambang mineral untuk senjata takdir’
  • Aku berharap Google kembali ke budaya riset terbuka seperti dulu
    Belakangan ini mereka cenderung melakukan eksperimen secara tertutup dan hanya mengeluarkan siaran pers
    Akan lebih baik jika dirilis sebagai open source dan hanya ditutup saat benar-benar perlu
    Riset mereka begitu mengesankan sehingga aku makin ingin terlibat langsung

    • Aku juga sangat setuju. Aku ingin mencobanya sendiri
    • Dreamer v3 sudah dirilis, apakah v4 juga akan segera keluar?
  • Ini memang proyek riset, tetapi aku penasaran dengan langkah berikutnya
    Bisakah apa yang dipelajari di dunia virtual ditransfer ke robot dunia nyata?
    Atau apakah perlu dilatih terpisah di dunia nyata?
    Juga, untuk mengatasi lingkungan game yang berbeda dari fisika dunia nyata, bukankah diperlukan dunia simulasi yang lebih canggih?

    • Tujuannya adalah menerapkan cara belajar di dunia virtual ke dunia nyata
      Jika muncul model dunia berpresisi tinggi, robot bisa dilatih di dalamnya lalu digeneralisasikan ke dunia nyata
      Saat ini kita masih berada di tahap membangun fondasinya
    • Ini dikenal sebagai masalah sim2real dalam robotika. Layak untuk dibaca
  • Di video demo pada menit 0:52 terlihat ada kesalahan tata bahasa, jadi aku curiga anotasinya diedit setelahnya
    Apakah Google lagi-lagi melebih-lebihkan untuk pemasaran?

    • Mungkin mereka mengubah dialog dalam game “Pergi ke rumah yang terlihat seperti tomat matang!”
      menjadi bentuk perintah, “Pergi ke rumah tomat”
      Meski begitu, sumbu Y pada grafik itu tampak jauh lebih masuk akal dibanding benchmark lain belakangan ini
    • Memang terlihat bahwa tepat sebelum adegan itu, pengguna mengetik “ripe tomato”
      Di versi ringkasnya itu dihilangkan, tetapi dalam konteksnya ekspresi itu memang ada
  • Akan bagus jika teknologi seperti ini berjalan secara lokal sebagai agen pendamping game
    Jika bisa mengambil alih pekerjaan berulang, rasanya aku bisa menikmati game lebih lama
    Bahkan jika tidak sempurna, mungkin justru itu yang membuatnya menyenangkan

    • Justru kalau AI yang memainkan game-ku, aku bisa memakai waktu itu untuk pekerjaan sungguhan seperti bersih-bersih atau mencuci
      Sekarang bahkan hal-hal merepotkan seperti puisi, lukisan, dan game pun bisa diserahkan
    • Kalau game sampai harus disuruhkan karena tidak menyenangkan, itu aneh. Hakikat game adalah memainkannya sendiri
    • Seperti “Skeeball → Virtual Skeeball → Virtual Virtual Skeeball”,
      kalau AI yang menggantikan, pada akhirnya orang akan kehilangan minat. Game dirancang berdasarkan keseimbangan antara kerja dan imbalan
    • Jika pekerjaan berulang harus didelegasikan, berarti desain gamenya yang salah
    • Aku juga pernah menulis skrip auto-mining dengan AutoHotkey di Terraria
      Aku membuatnya menambang blok berdasarkan koordinat, tetapi kalau tidak melihat layar, ia bisa jatuh ke lubang monster. Itu benar-benar ‘bot buta’