- SIMA 2 yang mengintegrasikan model Gemini berkembang melampaui sekadar mengikuti perintah bahasa, menjadi agen AI untuk lingkungan virtual 3D yang memahami tujuan pengguna, bernalar sendiri, dan berinteraksi
- Berbeda dari versi sebelumnya yang menjalankan lebih dari 600 tindakan berbasis bahasa, versi ini dilengkapi kemampuan penalaran, percakapan, dan peningkatan diri, sehingga dapat melakukan tindakan berorientasi tujuan bahkan di game baru
- Menunjukkan kemampuan generalisasi tinggi bahkan pada game yang tidak dilatih seperti MineDojo dan ASKA, serta mencapai tingkat penyelesaian tugas yang mendekati pemain manusia
- Menerapkan struktur loop peningkatan diri yang memungkinkan agen mengumpulkan pengalaman sendiri dan meningkatkan performa tanpa data manusia
- Kemajuan ini meletakkan dasar bagi penerapan embodied intelligence umum dan robotika
Ikhtisar SIMA 2
- SIMA 2 adalah agen AI berbasis Gemini yang dikembangkan Google DeepMind, sebuah sistem yang bermain dan belajar bersama manusia di lingkungan virtual 3D
- Versi awal SIMA berfokus pada menerjemahkan perintah bahasa menjadi tindakan, tetapi SIMA 2 menambahkan kemampuan inferensi tujuan, percakapan, dan peningkatan diri
- Model ini menunjukkan kemajuan menuju AGI (kecerdasan umum buatan) dan memiliki makna penting bagi riset robotika serta AI berwujud
Reasoning (kemampuan bernalar)
- SIMA 1 menjalankan lebih dari 600 perintah seperti “belok kiri” dan “naik tangga”, tetapi dilakukan dengan melihat layar dan mengoperasikan kontrol tanpa akses ke mekanisme internal game
- SIMA 2 menanamkan model Gemini, sehingga melampaui eksekusi perintah sederhana menjadi mampu memahami tujuan dan berpikir secara logis
- Data pelatihan disusun dari campuran video demonstrasi manusia dan label yang dihasilkan Gemini, dan agen dapat menjelaskan rencana tindakan serta langkah-langkahnya sendiri
- Hasil pengujian menunjukkan pengguna merasakan interaksi dengan SIMA 2 sebagai kolaborasi, bukan perintah, dan pelatihan serta evaluasi dilakukan di berbagai lingkungan game
- Berkat mesin penalaran Gemini, terwujud AI berwujud yang mengintegrasikan persepsi, pemahaman, dan tindakan di lingkungan 3D yang kompleks
Generalization (kemampuan generalisasi)
- Integrasi Gemini meningkatkan kemampuan memahami dan menjalankan perintah yang kompleks dan bernuansa
- Bahkan pada game yang tidak dilatih (misalnya ASKA, MineDojo), model ini menunjukkan tingkat keberhasilan tinggi dan mencapai tingkat penyelesaian tugas yang mendekati level manusia
- Memiliki kemampuan transfer konsep, seperti memindahkan konsep “mining” ke “harvesting” di game lain
- Mampu memahami perintah multibahasa dan emoji, serta memproses input multimodal (seperti gambar)
- Saat digabungkan dengan Genie 3, model ini membuktikan kemampuan adaptasi tinggi dengan tetap mempertahankan orientasi arah dan perilaku berorientasi tujuan bahkan di dunia virtual yang baru dibuat
Self-Improvement (peningkatan diri)
- SIMA 2 meningkatkan performa tanpa campur tangan manusia melalui loop pembelajaran mandiri
- Gemini memberikan tugas awal dan estimasi imbalan
- Berdasarkan itu, SIMA 2 membangun bank data pengalaman miliknya sendiri dan memanfaatkannya untuk pembelajaran lanjutan
- Bahkan tugas yang gagal pun dipelajari ulang secara berulang untuk diperbaiki, dan model ini dapat belajar di game baru tanpa demonstrasi manusia
- Di lingkungan Genie 3 pun, peningkatan diri diulang terus, dan terkonfirmasi peningkatan performa melalui pembelajaran multi-generasi
- Struktur ini menunjukkan potensi untuk berkembang menjadi AI berwujud yang terus belajar sendiri secara berkelanjutan
Future Directions (arah ke depan)
- SIMA 2 berperan sebagai ajang uji bagi kecerdasan umum yang menjalankan penalaran kompleks dan pembelajaran mandiri di berbagai lingkungan game
- Keterbatasan yang disorot mencakup pelaksanaan tugas jangka panjang, penalaran multi-tahap, keterbatasan memori pendek, dan penanganan kompleksitas visual
- Namun, dengan menggabungkan data multi-dunia dan kemampuan bernalar Gemini, model ini tervalidasi sebagai agen umum yang menyatukan fungsi dari berbagai sistem khusus
- Kemampuan yang diperoleh dalam eksplorasi, penggunaan alat, dan kolaborasi menjadi fondasi utama untuk diperluas ke AI robot fisik di masa depan
Responsible Development (pengembangan yang bertanggung jawab)
- SIMA 2 berorientasi pada interaksi yang berpusat pada manusia, dan mengembangkan teknologi inti seperti kemampuan peningkatan diri secara bertanggung jawab
- Google DeepMind bekerja sama dengan tim Responsible Development & Innovation untuk meninjau aspek keselamatan sejak tahap awal
- Saat ini sistem ini hadir dalam bentuk pratinjau riset terbatas, dengan akses awal hanya diberikan kepada sebagian kalangan akademik dan pengembang game
- Melalui pendekatan ini, mereka mengumpulkan umpan balik dan evaluasi risiko, dengan tujuan kemajuan teknologi yang bertanggung jawab di masa depan
Belum ada komentar.