- Project Genie dari Google adalah prototipe riset eksperimental yang memungkinkan pengguna membuat, menjelajahi, dan me-remix dunia virtual interaktif dengan teks dan gambar
- Dibangun di atas model Genie 3, dan menghasilkan jalur serta lingkungan secara real-time mengikuti pergerakan pengguna
- Tersedia dalam bentuk web app, dengan integrasi model Nano Banana Pro dan Gemini untuk mendukung fitur sketsa dunia, penjelajahan, dan remix
- Karena keterbatasan model, versi awal memiliki sejumlah batasan seperti ketidaksesuaian dengan hukum fisika, latensi kontrol karakter, dan batas 60 detik
- Saat ini tersedia untuk pelanggan Google AI Ultra di AS (usia 18 tahun ke atas), dengan rencana ekspansi ke lebih banyak wilayah di masa depan
Gambaran umum Project Genie
- Project Genie adalah prototipe riset eksperimental berbasis Genie 3 yang dikembangkan Google DeepMind, yang menyediakan lingkungan bagi pengguna untuk membuat, menjelajahi, dan me-remix dunia virtual secara langsung
- Tersedia bagi pelanggan Google AI Ultra di AS (usia 18 tahun ke atas)
- Pengguna dapat membuat dunia melalui prompt teks dan gambar, lalu menjelajahinya secara real-time
- Proyek ini merupakan langkah awal untuk membuka teknologi pembuatan dunia yang imersif kepada pengguna umum, sekaligus perluasan dari riset world model
Perkembangan World Model
- World model adalah sistem yang mensimulasikan perubahan dinamis pada lingkungan dan memprediksi dampak dari suatu tindakan
- Google DeepMind menargetkan pengembangan sistem AGI yang dapat mengeksplorasi keragaman dunia nyata, melampaui riset agen untuk lingkungan spesifik seperti catur atau Go
- Genie 3 menghasilkan jalur secara real-time sesuai perpindahan pengguna dan mensimulasikan interaksi fisik
- Mendukung pembuatan dunia yang dinamis, bukan sekadar snapshot 3D statis
- Dapat dimanfaatkan dalam berbagai skenario seperti robotika, animasi, fiksi, dan eksplorasi lokasi bersejarah
Cara kerja Project Genie
- Sebagai prototipe berbasis web, selain Genie 3 juga terintegrasi dengan model Nano Banana Pro dan Gemini
- Terdiri dari tiga fitur inti
-
1. World Sketching (Sketsa Dunia)
- Merancang lingkungan yang hidup dengan teks dan gambar (dibuat atau diunggah)
- Pengguna dapat mendefinisikan karakter dan cara menjelajah, dengan dukungan berjalan, terbang, mengemudi, dan bentuk mobilitas lain
- Integrasi Nano Banana Pro memungkinkan pratinjau dan penyesuaian detail dunia
- Dapat memilih sudut pandang orang pertama atau orang ketiga
-
2. World Exploration (Penjelajahan Dunia)
- Dunia yang dibuat menjadi lingkungan yang bisa dijelajahi, dengan jalur yang dihasilkan secara real-time mengikuti tindakan pengguna
- Sudut pandang kamera dapat diubah saat menjelajah
-
3. World Remixing (Remix Dunia)
- Berdasarkan prompt dunia yang sudah ada, pengguna dapat menyusun ulang dunia dengan interpretasi baru
- Melalui galeri atau fitur penjelajahan acak, pengguna dapat menjelajahi atau mengubah dunia buatan pengguna lain
- Dunia yang telah selesai dan proses penjelajahannya dapat diunduh sebagai video
Membangun AI yang bertanggung jawab
- Project Genie adalah prototipe riset eksperimental yang dijalankan dalam Google Labs, dan dioperasikan sesuai prinsip pengembangan AI yang bertanggung jawab
- Karena keterbatasan model saat ini, disebutkan sejumlah batasan berikut
- Dunia yang dihasilkan bisa berbeda dari kenyataan atau tidak konsisten dengan prompt maupun hukum fisika
- Dapat terjadi latensi kontrol karakter atau penurunan responsivitas
- Ada batas waktu pembuatan 60 detik
- Fitur perubahan event berbasis prompt yang diumumkan pada Agustus 2025 belum disertakan
- Pembaruan dan peningkatan berikutnya dapat dipantau di halaman resmi DeepMind
Rencana ke depan dan perluasan akses
- Project Genie dikembangkan berdasarkan riset kolaboratif dengan para tester tepercaya
- Peluncuran kali ini merupakan tahap untuk memahami bagaimana pengguna benar-benar memanfaatkan world model
- Saat ini hanya tersedia untuk pelanggan Google AI Ultra di AS, dan akan diperluas ke lebih banyak wilayah di masa mendatang
- Dalam jangka panjang, Google berencana membuka teknologi pembuatan dunia ini kepada lebih banyak pengguna
1 komentar
Komentar Hacker News
Akhir-akhir ini saya terus teringat pada Andy Clark, The Experience Machine
Teorinya adalah bahwa otak manusia tidak mengenali dunia secara langsung, melainkan mengalami realitas dengan mengoreksi simulasi yang dihasilkannya secara internal melalui indera
Dengan kata lain, kita hidup di dalam model generatif beresolusi tinggi, dan indera berperan menyesuaikan sinyal kesalahan pada model itu
Seperti Genie 3 yang memprediksi frame berikutnya di ruang laten, otak manusia juga berusaha meminimalkan perbedaan antara ekspektasi dan pengalaman nyata melalui ‘Active Inference’
Pada akhirnya, rasa realitas bukanlah rekaman langsung dunia luar, melainkan simulasi interaktif yang terus-menerus dikoreksi
Misalnya, mimpi bisa dilihat sebagai kasus ketika model internal bekerja bebas saat masukan sensorik terputus
Topik seperti ini sudah lama dibahas dalam filsafat dan agama, dan menarik bahwa kesadaran manusia membangun realitas sebagai proyeksi dirinya sendiri
Muncul pertanyaan, pada titik mana itu berhenti menjadi foto dan berubah menjadi karya impresionis yang dihitung secara komputasional
Tampaknya banyak orang salah paham dan mengira Genie hanyalah produk untuk game atau film
Padahal tujuan sebenarnya adalah membuat model dunia untuk AI dan robot generasi berikutnya, semacam ‘mesin imajinasi’ yang membantu pengambilan keputusan dengan mensimulasikan hasil tindakan
Saya membayangkan struktur yang mengenkode video dunia nyata pada frame rate tertentu untuk menambatkan imajinasi model ke data nyata, lalu mencabangkan dan mengevaluasi skenario tindakan yang mungkin sebelum mengirim prediksi optimal ke motor
Menyetel timing-nya tidak akan mudah, tapi gambaran besarnya sudah terlihat
Genie menghasilkan video sebagai antarmuka yang bisa dipahami dan di-debug manusia
Jadi tujuannya berbeda, yaitu sebagai game eksperimen AI untuk peneliti
Kalau Genie digabungkan dengan VR, bisa saja muncul titik balik distopia yang serupa
Tapi saya tetap lebih suka risiko dan vitalitas dunia nyata
Senang sekali akhirnya Genie dirilis
Ada beberapa video menarik dari para pengguna awal:
menjelajahi kota, simulasi helikopter, stasiun luar angkasa dan Dunkin Donuts, simulasi laptop, berang-berang pilot
Saya mencoba membuat berbagai dunia, seperti berjalan di bulan, bertemu Holmes dan Watson di 221B Baker Street, atau menjelajah sebagai bubble tea raksasa di pasar malam Taipei
Ada juga video demo
Memang masih prototipe eksperimental, tapi terasa seperti petunjuk masa depan
Bisa menghasilkan aset Unreal 5 hanya dengan beberapa kata memang keren, tapi saya sendiri tidak benar-benar ingin bermain seperti itu
Lagi pula saya juga tidak ingin membayar biaya komputasi per detik
Terobosan nyata Genie adalah bahwa kita bisa menoleh ke belakang
Simulator dari lab lain tidak bisa menjaga konsistensi untuk hal-hal yang berada di luar bidang pandang, tapi Genie berhasil menyelesaikan itu
Hanya saja pendekatan itu tampaknya akan punya keterbatasan untuk ekspresi animasi
Ada video wawancara dengan tim Project Genie
Tautan YouTube
Genie adalah prototipe riset yang dapat menghasilkan, dijelajahi, dan diinteraksikan secara real-time dalam dunia fotorealistis yang tak terbatas variasinya
Ini membahas peralihan dari pembuatan video pasif ke media interaktif, tantangan teknis konsistensi dunia dan pemeliharaan memori, serta perannya sebagai tempat pelatihan bagi agen AI
Semakin saya melihat teknologi seperti ini, justru semakin saya ingin menghabiskan waktu di dunia nyata
Saya ingin mematikan layar dan kembali melakukan hal-hal yang saya cintai
Dunia virtual yang dibangun dari adegan nyata justru menimbulkan kesedihan
Mungkin saja realitas memang sudah merupakan simulasi
Ini mengingatkan saya pada proyek pribadi yang dulu pernah muncul di HN, yang melatih model dunia dari video taman
Ada juga demo interaktif, dan Genie terasa seperti membawa ide itu satu langkah lebih jauh
Agak disayangkan bahwa blog atau demo indie seperti itu tidak dikutip
Model taman itu punya 5 juta parameter, dilatih dengan video 15 menit, dan bisa berjalan di iPhone
Sementara Genie 3 adalah model raksasa dengan miliaran parameter yang dilatih dengan jutaan jam video
Model skala menengah juga mulai bermunculan, jadi dalam 1–2 tahun ke depan mungkin bisa dijalankan secara lokal di GPU gaming
Contoh: LingBot-World, Waypoint 1
Semua ini mirip dengan tema film 『The Thirteenth Floor』
Tautan trailer
Saya berharap ada yang membuat satu dunia dari GIF ini
Saya sudah lama penasaran. Mengapa Meta(FB) tidak agresif terhadap model dunia
Justru ini seharusnya menjadi inti visi metaverse, tapi mereka malah melepas Yann LeCun
Ia tidak ikut dalam persaingan LLM dan hanya berkutat pada teori yang belum terbukti
Akibatnya Meta tertinggal dari kelompok terdepan AI, dan LeCun pun pergi sambil tetap menjaga reputasinya
JEPA seperti novelis yang merangkum “seekor anjing berlari ke arah tukang pos”
Genie seperti pelukis yang harus benar-benar melukis adegan berikutnya agar ceritanya ada
Dengan kata lain, Genie adalah generasi tingkat frame, sedangkan JEPA adalah prediksi tingkat konsep
Jika ini tidak bisa diprodukkan, proyeknya sendiri harus ditutup
Sebagus apa pun kontennya, ini tetap bertahan sebagai pasar niche