Google DeepMind merilis model dunia Genie 3
(deepmind.google)- Model dunia serbaguna pertama yang menghasilkan lingkungan 3D interaktif real-time hanya dari prompt teks
- Mampu berjalan pada 24fps, resolusi 720p, dan mempertahankan konsistensi selama beberapa menit, dengan peningkatan besar pada interaktivitas, realisme, dan persistensi dibanding Genie 2
- Dapat secara alami dan beragam menghasilkan dunia virtual dengan berbagai tema seperti fenomena fisika, ekosistem, animasi, serta latar sejarah dan geografis
- Melalui fitur Promptable world events, pengguna dapat mengendalikan event dinamis seperti perubahan cuaca atau penambahan objek secara real-time lewat teks
- Dirancang untuk riset agen dan dapat dihubungkan dengan agen SIMA dan lainnya, sehingga memungkinkan pengujian pencapaian tujuan jangka panjang maupun urutan perilaku yang kompleks
Genie 3: Terobosan dalam simulasi dunia
Latar belakang perkembangan model dunia
- DeepMind telah memimpin riset lingkungan simulasi dalam bidang seperti pelatihan agen AI, open-ended learning, dan robotika
- Model dunia adalah sistem AI yang dapat memprediksi dan mereproduksi perubahan lingkungan serta hasil dari tindakan agen, dan dinilai sebagai tahap perantara penting menuju AGI
- Setelah Genie 1 dan 2, Genie 3 adalah model dunia pertama yang sekaligus menghadirkan interaktivitas real-time serta konsistensi visual dan fisik
Fitur utama Genie 3
-
Pemodelan alam dan fenomena fisika
- Fenomena alam di dunia nyata seperti air, cahaya, dan berbagai interaksi lingkungan diwujudkan secara alami hanya melalui prompt
-
Ekosistem kompleks dan animasi
- Memungkinkan pembuatan dinamika ekosistem seperti perilaku hewan dan pertumbuhan tanaman, serta dunia animasi berbasis imajinasi
-
Implementasi latar sejarah dan geografis
- Dapat membangun secara real-time beragam ruang yang melampaui batas geografis dan periode sejarah sebagai lingkungan virtual
-
Interaksi dan kontrol real-time
- Memvisualisasikan perubahan dunia secara seketika pada 24fps dan 720p sesuai input pengguna
- Mengingat lokasi dan status yang pernah dikunjungi, sehingga mempertahankan konsistensi fisik dan visual selama beberapa menit
-
Promptable World Events
- Memungkinkan terjadinya secara real-time event perubahan lingkungan seperti perubahan cuaca atau penambahan objek dan karakter melalui prompt teks
- Selain kontrol eksplorasi, fitur ini menawarkan aplikasi luas seperti skenario “bagaimana jika” atau penciptaan situasi yang tidak biasa
-
Riset dan eksperimen agen
- Agen AI yang dioptimalkan untuk lingkungan 3D seperti SIMA dapat mengejar tujuan kompleks di dunia dalam Genie 3 dan memverifikasi kemampuan menjalankan urutan jangka panjang
- Tujuan agen tidak dibagikan ke Genie 3, dan hasil dihasilkan hanya melalui urutan tindakan serta simulasi dunia
Tantangan teknis dan pencapaian
- Dalam proses generasi autoregresif per frame, diperlukan teknologi tingkat tinggi karena input pengguna dan urutan sebelumnya harus sama-sama tercermin secara real-time
- Berbeda dari NeRF, Gaussian Splatting, dan lainnya, Genie 3 berbasis generatif murni tanpa representasi 3D eksplisit, sehingga mampu mewujudkan lingkungan yang jauh lebih dinamis dan kaya
Keterbatasan dan tantangan
- Batasan cakupan tindakan: perubahan lingkungan berbasis prompt beragam, tetapi tindakan yang dapat dilakukan secara langsung masih terbatas
- Interaksi multi-agen: simulasi yang akurat untuk interaksi antar banyak agen masih menjadi tantangan riset
- Keterbatasan reproduksi lokasi dunia nyata: belum memberikan akurasi sempurna terhadap ruang geografis nyata
- Keterbatasan rendering teks: representasi teks yang jelas hanya dimungkinkan jika dimasukkan secara eksplisit
- Batas waktu interaksi: saat ini hanya mendukung interaksi berkelanjutan selama beberapa menit
Tanggung jawab dan cakupan rilis
- Sifat open-ended dan generasi real-time dari Genie 3 membawa isu keselamatan dan etika baru, sehingga dikembangkan dengan kerja sama erat bersama Responsible Development & Innovation Team
- Pada tahap awal, produk ini hanya disediakan sebagai research preview untuk kelompok peneliti dan kreator terbatas, dengan rencana perluasan bertahap dan penyiapan langkah mitigasi risiko berdasarkan umpan balik
Prospek masa depan dan pemanfaatan
- Genie 3 menghadirkan kemungkinan baru di berbagai bidang seperti pendidikan, pelatihan, pembelajaran agen AI, dan verifikasi performa
- Teknologi ini diharapkan memainkan peran kunci dalam riset AGI (kecerdasan umum buatan) dan akan dikembangkan secara aman ke arah yang bermanfaat bagi umat manusia
1 komentar
Komentar Hacker News
Jika ada yang bekerja atau punya keahlian di bidang ini, saya penasaran apakah bisa menebak teknologi, arsitektur, desain sistem, dan kebutuhan komputasi seperti apa yang dipakai untuk membangun Genie 3. Informasi yang dirilis saat ini masih sedikit, jadi saya terutama ingin mendengar bagaimana para ahli di bidang ini memperkirakan atau menalar cara sistem seperti ini diimplementasikan
Saya sama sekali tidak menyangka bahwa konsistensi selama beberapa menit dalam 720p real-time sudah memungkinkan. Saya dengar konsistensi Genie 3 adalah emergent capability yang muncul dari scaling model. Artinya, bukan arsitekturnya yang sengaja diperbaiki, tetapi performa yang kebetulan muncul karena modelnya diperbesar. Seseorang yang sudah mencobanya merangkum keterbatasannya (tautan X):
Simulasi fisika masih sulit, dan ada kasus gagal yang jelas pada eksperimen fisika intuitif yang dipakai dalam psikologi (seperti menumpuk balok)
Interaksi sosial atau situasi yang melibatkan banyak agen itu sulit, dan game seperti duel 1 lawan 1 tidak berjalan baik
Instruksi yang kompleks atau logika game (seperti mengambil kunci lalu membuka pintu) juga tidak berjalan baik
Action space-nya juga masih terbatas
Masih jauh dari game engine sungguhan, tetapi jelas ini kesempatan untuk melihat sekilas masa depan secara langsung Meski ada keterbatasan ini, rasanya world model ke depan akan memegang peran yang lebih penting dari perkiraan dalam robotika dan AI dunia nyata. Mungkin robot masa depan akan belajar dari mimpi
Saya benar-benar penasaran bagaimana multiplayer bisa diwujudkan, bukan hanya dari sisi logistik dan teknis tetapi juga dari sudut pandang gameplay
Game memang jelas merupakan use case utama, tetapi pada dasarnya tampaknya ini dikembangkan untuk synthetic data generation bagi pelatihan robot gudang Google. Lihat artikel The Guardian dan postingan HN 4 bulan sebelum peluncuran Gemini Robot
Saya tidak menyangka laju kemajuan teknologi akan secepat ini. Beberapa bulan lalu saya menulis bahwa manipulasi output world model adalah tahap berikutnya untuk game AAA (tulisan blog), dan saat itu saya pikir masih beberapa tahun lagi. Saya juga bercanda bahwa Rockstar akan tergoda oleh world model saat mengembangkan GTA6, tetapi sekarang itu tidak lagi terdengar aneh. Melihat progres sejak GameNGen muncul, saya mulai berpikir ini bisa melampaui GTA6 lebih cepat dari jadwal rilis GTA6 sendiri
Pada level seperti ini, secara visual ini tampaknya bisa menjembatani reality gap sehingga akan jadi alat yang sangat bagus untuk robotika. Tentu saja simulasi fisika masih merupakan tantangan yang terpisah
Ini momen ketika bitter lesson sekali lagi terbukti berlaku
Ini perkembangan yang sangat menggembirakan, mungkin inilah yang diisyaratkan Demis bulan lalu (tweet terkait). Dari klip yang dirilis, kalau menebak beberapa detail teknis:
Saya ingin mereka mengungkap lebih banyak soal cara kerjanya. Akan sangat bagus kalau ada satu paper untuk peneliti sekalipun. Dugaan saya, ini mirip model generasi video yang sudah ada, tetapi input-nya di-conditioning dengan movement direction, viewangle, dan semacamnya. Saya juga berpikir bisa jadi input-nya absolut, bukan relatif, dan mungkin ada sebagian state simulation di dalamnya (meski melihat efek fisika tabrakan objek di video demo, bisa jadi bukan; atau mungkin sumbu up dihasilkan dalam 2D). Jelas tampaknya dilatih pada data berbasis game engine, karena artifact screen-space reflection terlihat. Sepertinya mereka juga menambahkan data berbasis photoscan/splat, dan resolusi elemen yang tidak realistis tampak sangat rendah. Ada juga sejumlah ketidakkonsistenan yang terlihat dalam demo:
Benar-benar mengesankan, tetapi detailnya sangat minim. Saya tidak setuju sepenuhnya dengan komentar lain yang bilang ini tak berarti kalau belum bisa dipakai langsung, tetapi tetap mengejutkan melihat perubahan zaman: beberapa tahun lalu, pengumuman seperti ini pasti datang bersama paper. Sekarang ada kru pembuat, demo, dan sitasi bibtex seperti bagian dari paper, tetapi tidak ada riset yang benar-benar dibagikan. Saat bicara dengan seorang kenalan, yang lebih mengkhawatirkan bagi saya bukan kemampuan AI yang bisa dilakukan saat ini, melainkan betapa cepat logika ekonomi bergeser dari mode riset/akademik ke "ekstraksi nilai". Menjadikan ini sebagai dasar, bahkan secara tidak langsung, untuk kebijakan dan ekonomi juga berisiko besar. Saya bukan menentang komersialisasi, tetapi fakta bahwa ada pengumuman produk yang tampak seperti paper riset, bersamaan dengan peringatan para matematikawan tentang pemangkasan dukungan riset akademik baru-baru ini, membuat kepercayaan jangka panjang justru melemah
Masih sulit bagi saya membayangkan bahwa menghasilkan "piksel berikutnya" secara prediktif akan lebih baik daripada membangun lalu merender adegan secara deterministik dengan cara lama. Misalnya, AI bisa dipakai untuk membuat tekstur, model, dan urutan gerakan, lalu kartu grafis menggabungkannya untuk merender adegan sehingga pengguna bisa memanipulasi wire model, tekstur, posisi kamera, dan sebagainya sesuka hati
Rasanya revolusioner. Saya memang menduga ini akan datang, tetapi menghadapinya langsung tetap terasa baru. Ada keterbatasan, tetapi ini titik awal. Selama ini dalam game engine, inti pekerjaannya adalah engineer atau developer menempatkan bentuk-bentuk geometri (seperti segitiga) secara presisi ke piksel, tetapi sekarang rasanya komputer langsung "melukis" gambar tiap frame, dan menghasilkan citra tanpa perhitungan segitiga sama sekali
Dan kualitas gambar tangan juga dulu 10 kali lebih buruk. Sekarang tangan, teks, dan gambar semuanya sudah membaik, jadi mungkin kita akan kembali bermain "Where's Waldo" untuk mencari cacatnya. Saya bahkan membayangkan suatu hari akan ada video infinite zoom dengan watermark AI tersembunyi pada level 1/3 piksel. Secara pribadi saya lebih tertarik pada bidang augmented video. Sudah ada upaya dari Runway dan lain-lain dengan gaya video seperti stormtrooper vlog, tetapi harganya terlalu mahal
Masalah teks belum bisa dibilang sepenuhnya selesai; memang jauh lebih baik, tetapi gpt-image-1 pun kadang masih gagal dalam menghasilkan teks
Prompt dan isi papan tulis yang dihasilkan berbeda soal ada atau tidaknya tanda hubung (-)
Ini presentasi pertama yang berkali-kali mengguncang rasa realitas saya. Pengalaman yang benar-benar bikin pikiran terguncang
Kemajuan generative AI makin lama malah terasa makin depresif. Rasanya kreativitas sedang dirampas semakin cepat. Kalau teknologi ini tetap menjadi alat yang membantu karya manusia, saya rasa itu baik-baik saja, tetapi sekarang justru terlihat mengarah ke penggantian total. Tentu orang bisa bilang, "Anda masih bisa membuat musik atau gambar sendiri," tetapi secara historis karya seni tidak lahir semata-mata hanya untuk diri sendiri, melainkan dalam konteks sosial untuk dibagikan dengan orang lain. Jadi pada akhirnya apa yang tersisa untuk kita? Hanya kerja sederhana yang belum diautomasi, dan kalau itu pun diautomasi, saya tidak tahu apa yang tersisa bagi manusia. Apakah akhirnya kita menuju masa depan di mana otak hanya diberi rangsangan yang dipersonalisasi untuk menaikkan dopamin sampai rusak (sebagian sudah terlihat lewat jenis-jenis seperti TikTok)? Jika semua pekerjaan diotomatisasi, saya juga ragu bagaimana struktur ekonomi bisa tetap berjalan. Mungkin ini bisa menjadi salah satu tafsir Fermi paradox. Dunia di mana teknologi sudah tak bisa disentuh karena terlalu rumit, akses bahkan ke teknologi sederhana pun hilang, dan sumber daya habis secara tak bisa dipulihkan. Dalam situasi seperti itu, saya bertanya-tanya bagaimana orang bisa menemukan makna hidup
Untuk klaim bahwa karya seni tidak dibuat sepenuhnya demi diri sendiri tanpa dibagikan ke publik, ada banyak penulis, pelukis, dan seniman terkenal yang menjadi kontra-contoh. Kafka juga contoh representatif, dan banyak karya penting baru ditemukan setelah kematian penciptanya, bahkan bertentangan dengan keinginan mereka. Ini tidak menghapus poin-poin lain, tetapi seni selalu punya ruang untuk ada demi dirinya sendiri, dan akan tetap begitu
Soal kalimat "Saya tidak bisa menerima argumen orang-orang yang senang hidup di zaman ini", kegembiraan itu adalah perasaan, bukan tindakan logis. Ia datang dari harapan dan imajinasi. Optimisme tidak membutuhkan logika. Dan soal mencari makna hidup, itu bukan pertanyaan yang baru muncul sejak ada LLM; itu sudah dibahas ribuan tahun lalu. Misalnya dalam [Bhagavad Gita], tokohnya bertanya kepada dewa, "Kalau hasil akhirnya pun tidak bermakna, kenapa saya harus bertindak?" tetapi tidak ada jawaban pasti, hanya perenungan meditatif. Ini adalah pertanyaan yang telah lama dihadapi manusia jauh sebelum kecerdasan buatan
Mirip dengan fakta bahwa saat ini kita tidak lagi perlu berjalan atau mengangkat barang berat untuk bertahan hidup, sehingga tanpa olahraga kita makin lama makin lemah. Di masa depan, jika kebanyakan orang tidak lagi perlu berpikir, berkarya, dan meneliti untuk mencari nafkah, mereka akan makin bodoh. Hanya sedikit orang yang akan terus mengasah otak, tetapi mereka pun pada akhirnya tidak akan bisa lebih pintar dari mesin. Sama seperti atlet terbaik pun tidak bisa mengalahkan mesin
Bahkan di dunia tempat kita hidup sekarang pun, sudah ada lagu-lagu di YouTube dan Spotify yang dibuat oleh orang yang bermain jauh lebih baik daripada saya. Jadi saya melihat perubahan kali ini sebagai kelanjutan dari hal itu
Saya tidak setuju dengan argumenmu. Saya sudah membuat ratusan lagu sepanjang hidup saya tetapi tidak pernah membagikannya kepada siapa pun, dan semua teman musisi saya juga begitu. Tindakan berkarya itu berada di ranah yang terpisah dari ada atau tidaknya penonton. Bahkan kenyataannya justru hampir kebalikannya. Dan sejarah produksi musik juga terus menurunkan hambatan masuk lewat teknologi baru, sementara dulu orang terhalang masuk karena peralatan mahal