Google DeepMind merilis model dunia Genie 3

(deepmind.google)

14 poin oleh GN⁺ 2025-08-06 | 1 komentar | Bagikan ke WhatsApp

Model dunia serbaguna pertama yang menghasilkan lingkungan 3D interaktif real-time hanya dari prompt teks
Mampu berjalan pada 24fps, resolusi 720p, dan mempertahankan konsistensi selama beberapa menit, dengan peningkatan besar pada interaktivitas, realisme, dan persistensi dibanding Genie 2
Dapat secara alami dan beragam menghasilkan dunia virtual dengan berbagai tema seperti fenomena fisika, ekosistem, animasi, serta latar sejarah dan geografis
Melalui fitur Promptable world events, pengguna dapat mengendalikan event dinamis seperti perubahan cuaca atau penambahan objek secara real-time lewat teks
Dirancang untuk riset agen dan dapat dihubungkan dengan agen SIMA dan lainnya, sehingga memungkinkan pengujian pencapaian tujuan jangka panjang maupun urutan perilaku yang kompleks

Genie 3: Terobosan dalam simulasi dunia

Latar belakang perkembangan model dunia

DeepMind telah memimpin riset lingkungan simulasi dalam bidang seperti pelatihan agen AI, open-ended learning, dan robotika
Model dunia adalah sistem AI yang dapat memprediksi dan mereproduksi perubahan lingkungan serta hasil dari tindakan agen, dan dinilai sebagai tahap perantara penting menuju AGI
Setelah Genie 1 dan 2, Genie 3 adalah model dunia pertama yang sekaligus menghadirkan interaktivitas real-time serta konsistensi visual dan fisik

Fitur utama Genie 3

Pemodelan alam dan fenomena fisika
- Fenomena alam di dunia nyata seperti air, cahaya, dan berbagai interaksi lingkungan diwujudkan secara alami hanya melalui prompt
Ekosistem kompleks dan animasi
- Memungkinkan pembuatan dinamika ekosistem seperti perilaku hewan dan pertumbuhan tanaman, serta dunia animasi berbasis imajinasi
Implementasi latar sejarah dan geografis
- Dapat membangun secara real-time beragam ruang yang melampaui batas geografis dan periode sejarah sebagai lingkungan virtual
Interaksi dan kontrol real-time
- Memvisualisasikan perubahan dunia secara seketika pada 24fps dan 720p sesuai input pengguna
- Mengingat lokasi dan status yang pernah dikunjungi, sehingga mempertahankan konsistensi fisik dan visual selama beberapa menit
Promptable World Events
- Memungkinkan terjadinya secara real-time event perubahan lingkungan seperti perubahan cuaca atau penambahan objek dan karakter melalui prompt teks
- Selain kontrol eksplorasi, fitur ini menawarkan aplikasi luas seperti skenario “bagaimana jika” atau penciptaan situasi yang tidak biasa
Riset dan eksperimen agen
- Agen AI yang dioptimalkan untuk lingkungan 3D seperti SIMA dapat mengejar tujuan kompleks di dunia dalam Genie 3 dan memverifikasi kemampuan menjalankan urutan jangka panjang
- Tujuan agen tidak dibagikan ke Genie 3, dan hasil dihasilkan hanya melalui urutan tindakan serta simulasi dunia

Tantangan teknis dan pencapaian

Dalam proses generasi autoregresif per frame, diperlukan teknologi tingkat tinggi karena input pengguna dan urutan sebelumnya harus sama-sama tercermin secara real-time
Berbeda dari NeRF, Gaussian Splatting, dan lainnya, Genie 3 berbasis generatif murni tanpa representasi 3D eksplisit, sehingga mampu mewujudkan lingkungan yang jauh lebih dinamis dan kaya

Keterbatasan dan tantangan

Batasan cakupan tindakan: perubahan lingkungan berbasis prompt beragam, tetapi tindakan yang dapat dilakukan secara langsung masih terbatas
Interaksi multi-agen: simulasi yang akurat untuk interaksi antar banyak agen masih menjadi tantangan riset
Keterbatasan reproduksi lokasi dunia nyata: belum memberikan akurasi sempurna terhadap ruang geografis nyata
Keterbatasan rendering teks: representasi teks yang jelas hanya dimungkinkan jika dimasukkan secara eksplisit
Batas waktu interaksi: saat ini hanya mendukung interaksi berkelanjutan selama beberapa menit

Tanggung jawab dan cakupan rilis

Sifat open-ended dan generasi real-time dari Genie 3 membawa isu keselamatan dan etika baru, sehingga dikembangkan dengan kerja sama erat bersama Responsible Development & Innovation Team
Pada tahap awal, produk ini hanya disediakan sebagai research preview untuk kelompok peneliti dan kreator terbatas, dengan rencana perluasan bertahap dan penyiapan langkah mitigasi risiko berdasarkan umpan balik

Prospek masa depan dan pemanfaatan

Genie 3 menghadirkan kemungkinan baru di berbagai bidang seperti pendidikan, pelatihan, pembelajaran agen AI, dan verifikasi performa
Teknologi ini diharapkan memainkan peran kunci dalam riset AGI (kecerdasan umum buatan) dan akan dikembangkan secara aman ke arah yang bermanfaat bagi umat manusia

1 komentar

GN⁺ 2025-08-06

Komentar Hacker News

Jika ada yang bekerja atau punya keahlian di bidang ini, saya penasaran apakah bisa menebak teknologi, arsitektur, desain sistem, dan kebutuhan komputasi seperti apa yang dipakai untuk membangun Genie 3. Informasi yang dirilis saat ini masih sedikit, jadi saya terutama ingin mendengar bagaimana para ahli di bidang ini memperkirakan atau menalar cara sistem seperti ini diimplementasikan
Saya sama sekali tidak menyangka bahwa konsistensi selama beberapa menit dalam 720p real-time sudah memungkinkan. Saya dengar konsistensi Genie 3 adalah emergent capability yang muncul dari scaling model. Artinya, bukan arsitekturnya yang sengaja diperbaiki, tetapi performa yang kebetulan muncul karena modelnya diperbesar. Seseorang yang sudah mencobanya merangkum keterbatasannya (tautan X):
- Simulasi fisika masih sulit, dan ada kasus gagal yang jelas pada eksperimen fisika intuitif yang dipakai dalam psikologi (seperti menumpuk balok)
- Interaksi sosial atau situasi yang melibatkan banyak agen itu sulit, dan game seperti duel 1 lawan 1 tidak berjalan baik
- Instruksi yang kompleks atau logika game (seperti mengambil kunci lalu membuka pintu) juga tidak berjalan baik
- Action space-nya juga masih terbatas
- Masih jauh dari game engine sungguhan, tetapi jelas ini kesempatan untuk melihat sekilas masa depan secara langsung Meski ada keterbatasan ini, rasanya world model ke depan akan memegang peran yang lebih penting dari perkiraan dalam robotika dan AI dunia nyata. Mungkin robot masa depan akan belajar dari mimpi
- Saya benar-benar penasaran bagaimana multiplayer bisa diwujudkan, bukan hanya dari sisi logistik dan teknis tetapi juga dari sudut pandang gameplay
- Game memang jelas merupakan use case utama, tetapi pada dasarnya tampaknya ini dikembangkan untuk synthetic data generation bagi pelatihan robot gudang Google. Lihat artikel The Guardian dan postingan HN 4 bulan sebelum peluncuran Gemini Robot
- Saya tidak menyangka laju kemajuan teknologi akan secepat ini. Beberapa bulan lalu saya menulis bahwa manipulasi output world model adalah tahap berikutnya untuk game AAA (tulisan blog), dan saat itu saya pikir masih beberapa tahun lagi. Saya juga bercanda bahwa Rockstar akan tergoda oleh world model saat mengembangkan GTA6, tetapi sekarang itu tidak lagi terdengar aneh. Melihat progres sejak GameNGen muncul, saya mulai berpikir ini bisa melampaui GTA6 lebih cepat dari jadwal rilis GTA6 sendiri
- Pada level seperti ini, secara visual ini tampaknya bisa menjembatani reality gap sehingga akan jadi alat yang sangat bagus untuk robotika. Tentu saja simulasi fisika masih merupakan tantangan yang terpisah
- Ini momen ketika bitter lesson sekali lagi terbukti berlaku
Ini perkembangan yang sangat menggembirakan, mungkin inilah yang diisyaratkan Demis bulan lalu (tweet terkait). Dari klip yang dirilis, kalau menebak beberapa detail teknis:
1. Ada fenomena tekstur yang "meloncat" setiap 4 frame, dan ini mungkin berarti VAE dengan downscale sumbu waktu 4x, yang berarti ada latency interaksi minimal 4 frame (kecuali VAE-nya mendukung control conditioning). Saya belum melihat video real-time penuh, tetapi dalam satu adegan mereka mencampur screen recording dan keyboard b-roll
2. Dalam gerakan cepat terlihat spatial blocking 16x16, sehingga diduga ada downscale 16x16 juga pada sumbu spasial VAE. Jika digabung dengan poin pertama, itu berarti memproses 21.600 token per detik, sekitar 1,3 juta token per menit
3. Frame pertama tiap klip terlihat lebih tajam dan kurang terasa seperti video game dibanding frame berikutnya, jadi tampaknya t2i (text-to-image) + i2w (image-to-world) diterapkan bersama. Dugaan saya, t2i dilatih pada data umum, sedangkan i2w di-fine-tune dengan data game berlabel kontrol. Seiring waktu, kontras dan saturasi tampak cenderung makin kuat, walau tidak separah model video autoregresif lain (contoh video)
- Soal latency, dari video gameplay real-time ini dihitung bahwa jarak antara keypress dan gerakan objek sekitar 1,1 detik (sekitar 33 frame pada 30fps). Dalam ulasan dari pengguna research preview Genie 3, disebutkan bahwa mereka mendengar "ada sedikit control lag, tetapi ini lebih karena infrastruktur penyedia layanan daripada model itu sendiri", jadi kemungkinan besar banyak latency berasal dari struktur streaming klien/server
Saya ingin mereka mengungkap lebih banyak soal cara kerjanya. Akan sangat bagus kalau ada satu paper untuk peneliti sekalipun. Dugaan saya, ini mirip model generasi video yang sudah ada, tetapi input-nya di-conditioning dengan movement direction, viewangle, dan semacamnya. Saya juga berpikir bisa jadi input-nya absolut, bukan relatif, dan mungkin ada sebagian state simulation di dalamnya (meski melihat efek fisika tabrakan objek di video demo, bisa jadi bukan; atau mungkin sumbu up dihasilkan dalam 2D). Jelas tampaknya dilatih pada data berbasis game engine, karena artifact screen-space reflection terlihat. Sepertinya mereka juga menambahkan data berbasis photoscan/splat, dan resolusi elemen yang tidak realistis tampak sangat rendah. Ada juga sejumlah ketidakkonsistenan yang terlihat dalam demo:
- Kualitas gambar adegan wingsuit tampak lebih rendah (mungkin diinisialisasi dengan gambar resolusi tinggi?)
- Dalam demo taman, geometri tampak berbeda di setiap variation. Selang kedua hanya muncul di satu versi, seolah geometri baru dibuat di tempat saat pertama kali dilihat
- Dalam demo sekolah, ada mobil yang hanya setengah terlihat di luar jendela, dan muncul pola berulang (kalau parameter transformer terlalu sedikit, pola loop tak berujung sering muncul; ini juga bisa berarti skalabilitasnya ada. Tampaknya mereka memakai greedy sampling demi stabilitas)
- Di adegan museum, ada pantulan aneh pada kotak amethyst, dan bagian belakang mammoth hanya muncul tanpa pantulan di tepi kanan kotak lalu tiba-tiba muncul saat terlihat melalui kotak. Pantulan gadingnya juga mendadak muncul, dan ini tidak ada hubungannya dengan efek Fresnel
Benar-benar mengesankan, tetapi detailnya sangat minim. Saya tidak setuju sepenuhnya dengan komentar lain yang bilang ini tak berarti kalau belum bisa dipakai langsung, tetapi tetap mengejutkan melihat perubahan zaman: beberapa tahun lalu, pengumuman seperti ini pasti datang bersama paper. Sekarang ada kru pembuat, demo, dan sitasi bibtex seperti bagian dari paper, tetapi tidak ada riset yang benar-benar dibagikan. Saat bicara dengan seorang kenalan, yang lebih mengkhawatirkan bagi saya bukan kemampuan AI yang bisa dilakukan saat ini, melainkan betapa cepat logika ekonomi bergeser dari mode riset/akademik ke "ekstraksi nilai". Menjadikan ini sebagai dasar, bahkan secara tidak langsung, untuk kebijakan dan ekonomi juga berisiko besar. Saya bukan menentang komersialisasi, tetapi fakta bahwa ada pengumuman produk yang tampak seperti paper riset, bersamaan dengan peringatan para matematikawan tentang pemangkasan dukungan riset akademik baru-baru ini, membuat kepercayaan jangka panjang justru melemah
Masih sulit bagi saya membayangkan bahwa menghasilkan "piksel berikutnya" secara prediktif akan lebih baik daripada membangun lalu merender adegan secara deterministik dengan cara lama. Misalnya, AI bisa dipakai untuk membuat tekstur, model, dan urutan gerakan, lalu kartu grafis menggabungkannya untuk merender adegan sehingga pengguna bisa memanipulasi wire model, tekstur, posisi kamera, dan sebagainya sesuka hati
- Jika butuh kualitas visual di atas tingkat tertentu, akan ada titik ketika prediksi "piksel berikutnya" justru menjadi lebih murah daripada rendering tradisional. Model itu bisa mendeskripsikan (memprediksi) apa yang ada ketika Anda melakukan zoom tak terbatas ke dalam permukaan. Ini mengurangi tantangan teknis yang sulit dicapai dengan metode rendering tradisional
Rasanya revolusioner. Saya memang menduga ini akan datang, tetapi menghadapinya langsung tetap terasa baru. Ada keterbatasan, tetapi ini titik awal. Selama ini dalam game engine, inti pekerjaannya adalah engineer atau developer menempatkan bentuk-bentuk geometri (seperti segitiga) secara presisi ke piksel, tetapi sekarang rasanya komputer langsung "melukis" gambar tiap frame, dan menghasilkan citra tanpa perhitungan segitiga sama sekali
Rendering teks. Teks yang jelas dan bisa dibaca umumnya hanya dapat dihasilkan ketika itu termasuk dalam deskripsi world input Ini mengingatkan pada masa ketika AI gambar dulu belum bisa menghasilkan teks. Masalah itu juga segera teratasi, jadi mungkin ini hanya soal waktu
- Dan kualitas gambar tangan juga dulu 10 kali lebih buruk. Sekarang tangan, teks, dan gambar semuanya sudah membaik, jadi mungkin kita akan kembali bermain "Where's Waldo" untuk mencari cacatnya. Saya bahkan membayangkan suatu hari akan ada video infinite zoom dengan watermark AI tersembunyi pada level 1/3 piksel. Secara pribadi saya lebih tertarik pada bidang augmented video. Sudah ada upaya dari Runway dan lain-lain dengan gaya video seperti stormtrooper vlog, tetapi harganya terlalu mahal
- Masalah teks belum bisa dibilang sepenuhnya selesai; memang jauh lebih baik, tetapi gpt-image-1 pun kadang masih gagal dalam menghasilkan teks
- Prompt dan isi papan tulis yang dihasilkan berbeda soal ada atau tidaknya tanda hubung (-)
Ini presentasi pertama yang berkali-kali mengguncang rasa realitas saya. Pengalaman yang benar-benar bikin pikiran terguncang
Kemajuan generative AI makin lama malah terasa makin depresif. Rasanya kreativitas sedang dirampas semakin cepat. Kalau teknologi ini tetap menjadi alat yang membantu karya manusia, saya rasa itu baik-baik saja, tetapi sekarang justru terlihat mengarah ke penggantian total. Tentu orang bisa bilang, "Anda masih bisa membuat musik atau gambar sendiri," tetapi secara historis karya seni tidak lahir semata-mata hanya untuk diri sendiri, melainkan dalam konteks sosial untuk dibagikan dengan orang lain. Jadi pada akhirnya apa yang tersisa untuk kita? Hanya kerja sederhana yang belum diautomasi, dan kalau itu pun diautomasi, saya tidak tahu apa yang tersisa bagi manusia. Apakah akhirnya kita menuju masa depan di mana otak hanya diberi rangsangan yang dipersonalisasi untuk menaikkan dopamin sampai rusak (sebagian sudah terlihat lewat jenis-jenis seperti TikTok)? Jika semua pekerjaan diotomatisasi, saya juga ragu bagaimana struktur ekonomi bisa tetap berjalan. Mungkin ini bisa menjadi salah satu tafsir Fermi paradox. Dunia di mana teknologi sudah tak bisa disentuh karena terlalu rumit, akses bahkan ke teknologi sederhana pun hilang, dan sumber daya habis secara tak bisa dipulihkan. Dalam situasi seperti itu, saya bertanya-tanya bagaimana orang bisa menemukan makna hidup
- Untuk klaim bahwa karya seni tidak dibuat sepenuhnya demi diri sendiri tanpa dibagikan ke publik, ada banyak penulis, pelukis, dan seniman terkenal yang menjadi kontra-contoh. Kafka juga contoh representatif, dan banyak karya penting baru ditemukan setelah kematian penciptanya, bahkan bertentangan dengan keinginan mereka. Ini tidak menghapus poin-poin lain, tetapi seni selalu punya ruang untuk ada demi dirinya sendiri, dan akan tetap begitu
- Soal kalimat "Saya tidak bisa menerima argumen orang-orang yang senang hidup di zaman ini", kegembiraan itu adalah perasaan, bukan tindakan logis. Ia datang dari harapan dan imajinasi. Optimisme tidak membutuhkan logika. Dan soal mencari makna hidup, itu bukan pertanyaan yang baru muncul sejak ada LLM; itu sudah dibahas ribuan tahun lalu. Misalnya dalam [Bhagavad Gita], tokohnya bertanya kepada dewa, "Kalau hasil akhirnya pun tidak bermakna, kenapa saya harus bertindak?" tetapi tidak ada jawaban pasti, hanya perenungan meditatif. Ini adalah pertanyaan yang telah lama dihadapi manusia jauh sebelum kecerdasan buatan
- Mirip dengan fakta bahwa saat ini kita tidak lagi perlu berjalan atau mengangkat barang berat untuk bertahan hidup, sehingga tanpa olahraga kita makin lama makin lemah. Di masa depan, jika kebanyakan orang tidak lagi perlu berpikir, berkarya, dan meneliti untuk mencari nafkah, mereka akan makin bodoh. Hanya sedikit orang yang akan terus mengasah otak, tetapi mereka pun pada akhirnya tidak akan bisa lebih pintar dari mesin. Sama seperti atlet terbaik pun tidak bisa mengalahkan mesin
- Bahkan di dunia tempat kita hidup sekarang pun, sudah ada lagu-lagu di YouTube dan Spotify yang dibuat oleh orang yang bermain jauh lebih baik daripada saya. Jadi saya melihat perubahan kali ini sebagai kelanjutan dari hal itu
- Saya tidak setuju dengan argumenmu. Saya sudah membuat ratusan lagu sepanjang hidup saya tetapi tidak pernah membagikannya kepada siapa pun, dan semua teman musisi saya juga begitu. Tindakan berkarya itu berada di ranah yang terpisah dari ada atau tidaknya penonton. Bahkan kenyataannya justru hampir kebalikannya. Dan sejarah produksi musik juga terus menurunkan hambatan masuk lewat teknologi baru, sementara dulu orang terhalang masuk karena peralatan mahal

Google DeepMind merilis model dunia Genie 3

Genie 3: Terobosan dalam simulasi dunia

Latar belakang perkembangan model dunia

Fitur utama Genie 3

Pemodelan alam dan fenomena fisika

Ekosistem kompleks dan animasi

Implementasi latar sejarah dan geografis

Interaksi dan kontrol real-time

Promptable World Events

Riset dan eksperimen agen

Tantangan teknis dan pencapaian

Keterbatasan dan tantangan

Tanggung jawab dan cakupan rilis

Prospek masa depan dan pemanfaatan

Bacaan terkait

1 komentar

Komentar Hacker News