5 poin oleh GN⁺ 2024-12-05 | 1 komentar | Bagikan ke WhatsApp
  • Genie 2 adalah model dunia fondasi yang menghasilkan beragam lingkungan 3D yang dapat dimanipulasi manusia maupun agen AI menggunakan keyboard dan mouse
  • Game memainkan peran penting dalam riset AI, dan Genie 2 memungkinkan pelatihan serta evaluasi agen di dunia-dunia baru dengan kurikulum tak terbatas
  • Fitur
    • Prototyping cepat: Genie 2 memungkinkan pembuatan prototipe cepat untuk berbagai pengalaman interaktif sehingga peneliti dapat bereksperimen dengan lingkungan baru.
    • Penerapan agen: Genie 2 dapat digunakan untuk dengan cepat membuat lingkungan yang kaya dan beragam bagi agen AI.
    • Arsitektur model: Dilatih dengan dataset video skala besar, Genie 2 dapat memodelkan berbagai interaksi objek, animasi karakter yang kompleks, fisika, dan lainnya.
    • Pengembangan yang bertanggung jawab: Genie 2 menunjukkan potensi model dunia fondasi dalam menghasilkan beragam lingkungan 3D dan mempercepat riset agen.
  • Kemampuan emergen
    • Genie 2 dapat menghasilkan beragam dunia 3D dan memodelkan interaksi objek, animasi karakter yang kompleks, fisika, dan lainnya.
    • Pengguna dapat mendeskripsikan dunia dengan teks, memilih rendering dari ide tersebut, lalu berinteraksi dengan dunia yang baru dihasilkan.
    • Kontrol tindakan: Genie 2 dapat mengidentifikasi dan menggerakkan karakter dengan benar sesuai input keyboard.
    • Pembuatan pengalaman kontra-faktual: Dari frame awal yang sama, Genie 2 dapat menghasilkan berbagai jalur untuk mensimulasikan pengalaman kontra-faktual bagi pelatihan agen.
    • Memori jangka panjang: Genie 2 dapat mengingat bagian dunia yang keluar dari bidang pandang, lalu merendernya secara akurat saat dapat diamati kembali.
    • Lingkungan beragam: Genie 2 dapat menghasilkan berbagai sudut pandang seperti first-person, isometrik, dan video berkendara third-person.
    • Struktur 3D: Mampu menghasilkan adegan visual 3D yang kompleks.
    • Interaksi objek: Dapat memodelkan berbagai interaksi objek seperti meletuskan balon, membuka pintu, dan menembakkan bahan peledak.
    • Animasi karakter: Dapat menganimasikan karakter yang melakukan berbagai aktivitas.
    • NPC: Dapat memodelkan interaksi kompleks dengan agen lain.
    • Fisika: Dapat memodelkan efek air, efek asap, gravitasi, pencahayaan, dan lainnya.
    • Bermain dari gambar nyata: Melalui prompt dari gambar nyata, Genie 2 dapat memodelkan air yang mengalir di rumput atau rumput yang bergoyang tertiup angin.
  • Prototyping cepat untuk berbagai pengalaman interaktif
    • Genie 2 mendukung eksperimen cepat pada lingkungan baru serta pelatihan dan pengujian agen AI berwujud
      • Contoh: simulasi berbagai lingkungan untuk mengendalikan pesawat kertas, naga, elang, dan parasut menggunakan gambar yang dihasilkan oleh Imagen 3
    • Dengan kemampuan generalisasi out-of-distribution milik Genie 2, concept art dan ilustrasi dapat diubah menjadi lingkungan interaktif penuh
      • Prototyping cepat membantu melakukan bootstrap pada proses kreatif dan mempercepat desain lingkungan
  • Membuat lingkungan evaluasi dengan Genie 2
    • Genie 2 dapat dengan cepat membuat lingkungan yang kaya dan beragam untuk agen AI
      • Menguji agen dengan membuat tugas evaluasi baru yang tidak ditemui selama pelatihan
    • Agen SIMA, yang dikembangkan DeepMind bekerja sama dengan pengembang game, menjalankan tugas di dunia game 3D berdasarkan instruksi bahasa alami
      • Genie 2 menghasilkan lingkungan 3D dari satu prompt gambar, dan agen SIMA berinteraksi melalui input keyboard dan mouse
    • Meski masih tahap awal penelitian, Genie 2 diharapkan berkontribusi pada penyelesaian masalah pelatihan aman bagi agen berwujud dengan menyediakan keragaman dan generalitas lingkungan pelatihan
    • Membangun landasan bagi kemajuan AGI (kecerdasan umum buatan) melalui pelatihan yang tergeneralisasi untuk agen AI
  • Model dunia difusi
    • Genie 2 adalah model difusi laten yang dilatih berdasarkan dataset video skala besar
    • Frame diubah ke ruang laten melalui autoencoder, lalu diteruskan ke model dinamis berbasis transformer
    • Saat pelatihan, diterapkan causal mask yang serupa dengan yang digunakan pada language model
    • Inferensi autoregresif
      • Saat inferensi, Genie 2 mengambil sampel frame demi frame secara autoregresif dari frame laten masa lalu dan data tindakan
      • Menggunakan teknik Classifier-Free Guidance untuk meningkatkan kemampuan kontrol tindakan
    • Genie 2 secara efisien menghasilkan lingkungan 3D beresolusi tinggi sambil mempertahankan kemampuan kontrol tindakan
    • Dengan menggabungkan model difusi dan pendekatan autoregresif, Genie 2 menghadirkan teknologi generasi berikutnya untuk lingkungan virtual yang imersif
  • Pengembangan teknologi yang bertanggung jawab
    • Genie 2 menunjukkan potensi model dunia fondasi dalam menghasilkan beragam lingkungan 3D dan mempercepat riset agen.

1 komentar

 
GN⁺ 2024-12-05
Opini Hacker News
  • Penasaran dengan ukuran model ini, dan disayangkan detail teknisnya kurang. Juga menyoroti bahwa pendekatan Google masih tertutup. Namun, kemungkinan menjelajahi dunia berdasarkan foto dan deskripsi teks terasa mengagumkan.

  • Menarik bahwa dorongan pada pembuatan video dan dunia terus berlanjut. Mengungkapkan minat pada game pembuat cerita tanpa akhir, serta menantikan era keemasan storytelling interaktif di masa depan.

  • Menunjukkan bahwa teknologi ini mungkin tidak berguna untuk pengembangan game. Game menekankan interaksi, dan desainer perlu memiliki kendali yang mendalam. Menganggap bagian pembuatan dunia sebagai yang paling berguna.

  • Menekankan bahwa teknologi ini akan membawa kemajuan besar bagi AGI dan robotika. Melihatnya sebagai titik awal untuk menambahkan fungsi ke mesin yang mirip dengan cara kerja otak manusia.

  • Menjelaskan bahwa tujuan sebenarnya dari riset ini adalah mengembangkan model yang melampaui pemahaman manusia tentang dunia 3D. Ini akan berkontribusi pada kemajuan robotika dan mobil otonom.

  • Mengungkapkan kekecewaan bahwa Genie2 mengabaikan detail seni konsep. Mengkritik bahwa makhluk alien indah dalam versi asli diabaikan.

  • Menjelaskan bahwa AI generatif menawarkan fleksibilitas tetapi membutuhkan banyak komputasi. Mengungkapkan rasa ingin tahu tentang peran pemrograman tradisional dan AI generatif.

  • Mempertanyakan nilai nyata teknologi ini. Menunjukkan bahwa biaya komputasinya tinggi dan perilakunya tidak konsisten.

  • Karena scroll tidak berfungsi di MS Edge, beralih ke Firefox, dan menyebut kualitas visual videonya tidak bagus. Mempertanyakan mengapa peneliti AI ingin menggantikan sistem lama yang sudah bekerja dengan baik.