- Genie 2 adalah model dunia fondasi yang menghasilkan beragam lingkungan 3D yang dapat dimanipulasi manusia maupun agen AI menggunakan keyboard dan mouse
- Game memainkan peran penting dalam riset AI, dan Genie 2 memungkinkan pelatihan serta evaluasi agen di dunia-dunia baru dengan kurikulum tak terbatas
- Fitur
- Prototyping cepat: Genie 2 memungkinkan pembuatan prototipe cepat untuk berbagai pengalaman interaktif sehingga peneliti dapat bereksperimen dengan lingkungan baru.
- Penerapan agen: Genie 2 dapat digunakan untuk dengan cepat membuat lingkungan yang kaya dan beragam bagi agen AI.
- Arsitektur model: Dilatih dengan dataset video skala besar, Genie 2 dapat memodelkan berbagai interaksi objek, animasi karakter yang kompleks, fisika, dan lainnya.
- Pengembangan yang bertanggung jawab: Genie 2 menunjukkan potensi model dunia fondasi dalam menghasilkan beragam lingkungan 3D dan mempercepat riset agen.
- Kemampuan emergen
- Genie 2 dapat menghasilkan beragam dunia 3D dan memodelkan interaksi objek, animasi karakter yang kompleks, fisika, dan lainnya.
- Pengguna dapat mendeskripsikan dunia dengan teks, memilih rendering dari ide tersebut, lalu berinteraksi dengan dunia yang baru dihasilkan.
- Kontrol tindakan: Genie 2 dapat mengidentifikasi dan menggerakkan karakter dengan benar sesuai input keyboard.
- Pembuatan pengalaman kontra-faktual: Dari frame awal yang sama, Genie 2 dapat menghasilkan berbagai jalur untuk mensimulasikan pengalaman kontra-faktual bagi pelatihan agen.
- Memori jangka panjang: Genie 2 dapat mengingat bagian dunia yang keluar dari bidang pandang, lalu merendernya secara akurat saat dapat diamati kembali.
- Lingkungan beragam: Genie 2 dapat menghasilkan berbagai sudut pandang seperti first-person, isometrik, dan video berkendara third-person.
- Struktur 3D: Mampu menghasilkan adegan visual 3D yang kompleks.
- Interaksi objek: Dapat memodelkan berbagai interaksi objek seperti meletuskan balon, membuka pintu, dan menembakkan bahan peledak.
- Animasi karakter: Dapat menganimasikan karakter yang melakukan berbagai aktivitas.
- NPC: Dapat memodelkan interaksi kompleks dengan agen lain.
- Fisika: Dapat memodelkan efek air, efek asap, gravitasi, pencahayaan, dan lainnya.
- Bermain dari gambar nyata: Melalui prompt dari gambar nyata, Genie 2 dapat memodelkan air yang mengalir di rumput atau rumput yang bergoyang tertiup angin.
- Prototyping cepat untuk berbagai pengalaman interaktif
- Genie 2 mendukung eksperimen cepat pada lingkungan baru serta pelatihan dan pengujian agen AI berwujud
- Contoh: simulasi berbagai lingkungan untuk mengendalikan pesawat kertas, naga, elang, dan parasut menggunakan gambar yang dihasilkan oleh Imagen 3
- Dengan kemampuan generalisasi out-of-distribution milik Genie 2, concept art dan ilustrasi dapat diubah menjadi lingkungan interaktif penuh
- Prototyping cepat membantu melakukan bootstrap pada proses kreatif dan mempercepat desain lingkungan
- Membuat lingkungan evaluasi dengan Genie 2
- Genie 2 dapat dengan cepat membuat lingkungan yang kaya dan beragam untuk agen AI
- Menguji agen dengan membuat tugas evaluasi baru yang tidak ditemui selama pelatihan
- Agen SIMA, yang dikembangkan DeepMind bekerja sama dengan pengembang game, menjalankan tugas di dunia game 3D berdasarkan instruksi bahasa alami
- Genie 2 menghasilkan lingkungan 3D dari satu prompt gambar, dan agen SIMA berinteraksi melalui input keyboard dan mouse
- Meski masih tahap awal penelitian, Genie 2 diharapkan berkontribusi pada penyelesaian masalah pelatihan aman bagi agen berwujud dengan menyediakan keragaman dan generalitas lingkungan pelatihan
- Membangun landasan bagi kemajuan AGI (kecerdasan umum buatan) melalui pelatihan yang tergeneralisasi untuk agen AI
- Model dunia difusi
- Genie 2 adalah model difusi laten yang dilatih berdasarkan dataset video skala besar
- Frame diubah ke ruang laten melalui autoencoder, lalu diteruskan ke model dinamis berbasis transformer
- Saat pelatihan, diterapkan causal mask yang serupa dengan yang digunakan pada language model
- Inferensi autoregresif
- Saat inferensi, Genie 2 mengambil sampel frame demi frame secara autoregresif dari frame laten masa lalu dan data tindakan
- Menggunakan teknik Classifier-Free Guidance untuk meningkatkan kemampuan kontrol tindakan
- Genie 2 secara efisien menghasilkan lingkungan 3D beresolusi tinggi sambil mempertahankan kemampuan kontrol tindakan
- Dengan menggabungkan model difusi dan pendekatan autoregresif, Genie 2 menghadirkan teknologi generasi berikutnya untuk lingkungan virtual yang imersif
- Pengembangan teknologi yang bertanggung jawab
- Genie 2 menunjukkan potensi model dunia fondasi dalam menghasilkan beragam lingkungan 3D dan mempercepat riset agen.
1 komentar
Opini Hacker News
Penasaran dengan ukuran model ini, dan disayangkan detail teknisnya kurang. Juga menyoroti bahwa pendekatan Google masih tertutup. Namun, kemungkinan menjelajahi dunia berdasarkan foto dan deskripsi teks terasa mengagumkan.
Menarik bahwa dorongan pada pembuatan video dan dunia terus berlanjut. Mengungkapkan minat pada game pembuat cerita tanpa akhir, serta menantikan era keemasan storytelling interaktif di masa depan.
Menunjukkan bahwa teknologi ini mungkin tidak berguna untuk pengembangan game. Game menekankan interaksi, dan desainer perlu memiliki kendali yang mendalam. Menganggap bagian pembuatan dunia sebagai yang paling berguna.
Menekankan bahwa teknologi ini akan membawa kemajuan besar bagi AGI dan robotika. Melihatnya sebagai titik awal untuk menambahkan fungsi ke mesin yang mirip dengan cara kerja otak manusia.
Menjelaskan bahwa tujuan sebenarnya dari riset ini adalah mengembangkan model yang melampaui pemahaman manusia tentang dunia 3D. Ini akan berkontribusi pada kemajuan robotika dan mobil otonom.
Mengungkapkan kekecewaan bahwa Genie2 mengabaikan detail seni konsep. Mengkritik bahwa makhluk alien indah dalam versi asli diabaikan.
Menjelaskan bahwa AI generatif menawarkan fleksibilitas tetapi membutuhkan banyak komputasi. Mengungkapkan rasa ingin tahu tentang peran pemrograman tradisional dan AI generatif.
Mempertanyakan nilai nyata teknologi ini. Menunjukkan bahwa biaya komputasinya tinggi dan perilakunya tidak konsisten.
Karena scroll tidak berfungsi di MS Edge, beralih ke Firefox, dan menyebut kualitas visual videonya tidak bagus. Mempertanyakan mengapa peneliti AI ingin menggantikan sistem lama yang sudah bekerja dengan baik.