WorldGen – Membuat dunia 3D imersif dari teks

(meta.com)

3 poin oleh GN⁺ 2025-11-24 | 1 komentar | Bagikan ke WhatsApp

WorldGen dari Meta adalah sistem AI generatif end-to-end yang secara otomatis membuat dunia 3D yang dapat dijelajahi dari satu prompt teks
Menggabungkan penalaran prosedural, generasi 3D berbasis difusi, dan dekomposisi adegan berbasis pengenalan objek untuk membangun lingkungan yang konsisten secara geometris dan kaya secara visual
Proses generasinya terdiri dari empat tahap: Planning, Reconstruction, Decomposition, dan Refinement
Hasilnya kompatibel dengan engine game standar seperti Unity dan Unreal, serta dapat digunakan tanpa proses konversi terpisah
Memiliki potensi untuk membuat pembuatan konten 3D yang kompleks dan mahal menjadi dapat diakses oleh siapa saja sekaligus lebih efisien

Gambaran umum WorldGen

WorldGen dapat membuat dunia 3D interaktif dalam hitungan menit hanya dari masukan teks seperti “cartoon medieval village” atau “sci-fi base station on Mars”
- Dunia yang dihasilkan mempertahankan konsistensi gaya dan tema, serta terhubung dalam struktur yang memungkinkan karakter bergerak bebas
Berdasarkan kemajuan teknologi AI generatif, sistem ini dapat membangun lingkungan 3D lengkap dari satu prompt teks atau gambar

Struktur teknologi dan tahapan generasi

WorldGen dimulai dengan tahap perencanaan yang mencakup pembuatan blockout prosedural, ekstraksi Navmesh, dan pembuatan gambar referensi
Setelah itu, dilanjutkan dengan tahap rekonstruksi yang melakukan konversi gambar-ke-3D, pembuatan adegan berbasis Navmesh, dan pembuatan tekstur dasar
AutoPartGen digunakan untuk dekomposisi adegan dan kurasi data guna memisahkan elemen-elemen detail
Terakhir, dilakukan tahap penyempurnaan melalui peningkatan gambar, pemurnian mesh, dan model tekstur

Perbedaan dari pendekatan yang ada

Sistem yang ada selama ini berfokus pada satu sudut pandang (viewpoint) sehingga kualitasnya menurun tajam di area luar pusat
WorldGen menghasilkan adegan bertekstur lengkap berukuran 50×50 meter sambil mempertahankan konsistensi gaya dan geometri
Riset sedang dilanjutkan dengan target skala dunia yang lebih besar di masa depan

Kompatibilitas dan potensi penggunaan

Saat ini masih berada pada tahap riset dan belum dibuka untuk developer, tetapi konten yang dihasilkan dapat langsung digunakan di Unity dan Unreal
Tidak memerlukan konversi pipeline rendering terpisah

Keterbatasan dan arah berikutnya

Model saat ini masih memiliki ruang perbaikan dalam aspek ukuran ruang dan latensi generasi
Versi mendatang menargetkan pembuatan ruang yang lebih besar dan peningkatan kecepatan

Signifikansi industri

Mengurangi kompleksitas dan beban biaya pembuatan konten 3D, serta membuka kemungkinan agar nonspesialis pun dapat membangun dunia virtual
Sejalan dengan visi Meta yang disampaikan di acara Connect tentang “masa depan di mana siapa pun dapat membuat dunia virtual tanpa menulis satu baris kode pun”

Daftar ucapan terima kasih

Proyek ini dikerjakan oleh tim Reality Labs 3D GenAI
Kontributor utama: Dilin Wang, Hyunyoung Jung, Tom Monnier, Kihyuk Sohn, dan lainnya (tanda † menunjukkan project lead)

1 komentar

GN⁺ 2025-11-24

Komentar Hacker News

Ini demo yang menarik, tetapi kita tidak bisa masuk ke dalam bangunan, ukuran bangunan dan tata letak desanya hampir sama, dan ada banyak ketidakkonsistenan visual
Pada akhirnya, rasanya seperti sekadar menempatkan kotak-kotak serupa di atas grid lalu berkeliaran di antaranya
Saya paham kemajuan itu terjadi secara bertahap, tetapi dibanding demo pembangkitan dunia lainnya, ini terlihat seperti langkah yang terlalu kecil
- Desa-desa buatan AI ini terlihat seolah tunduk pada regulasi perencanaan kota yang ketat
  Semua bangunan ditempatkan di atas grid dengan jarak yang seragam, dan tampaknya juga ada batas ketinggian
  Game open-world realistis (GTA, Cyberpunk, dll.) justru sengaja punya 'kepadatan yang didesain' seperti jalan buntu atau pintu terkunci
  Jika semua jalan menuju tempat yang menarik, justru kesenangan menjelajah bisa hilang
- Demo ini mungkin lebih berguna dalam pipeline produksi konten daripada contoh lain seperti World Labs
  Jika pendekatannya memakai aset eksplisit, bisa jadi ini lebih cocok untuk pembuatan game
  Meta telah menerbitkan banyak paper kunci di bidang ini dan juga punya Hyperscape, jadi ini bisa dilihat sebagai eksperimen ke arah yang berbeda
- Saya tidak melihat tautan demo nyata yang bisa dijalankan
- Sebagian besar game juga tidak memungkinkan kita masuk ke dalam bangunan. Bahkan di Cyberpunk pun hanya sangat sedikit pintu yang bisa dibuka
  Saya penasaran kapan hari itu akan datang ketika pengguna biasa juga bisa langsung mencoba engine worldgen seperti ini
  Saya juga bertanya-tanya mengapa Google, Meta, dan Tencent terus hanya mendemokan hal-hal seperti ini tanpa benar-benar merilisnya
Ini terlihat seperti pipeline rekayasa yang menggabungkan teknologi GenAI yang sudah ada
Hasilnya juga bukan di level SOTA, dan alih-alih kemajuan, ini terasa seperti pendekatan jalan buntu
Inovasi yang sesungguhnya seharusnya adalah langsung menghasilkan mesh bertekstur dengan model yang dilatih end-to-end, dan fakta bahwa itu belum tercapai bisa berarti teknologi intinya masih kurang
Meski begitu, ini tampaknya masih bisa dipakai untuk bootstrap dataset pelatihan model di masa depan
- Saya penasaran apa teknologi SOTA saat ini di bidang ini
- Para pengembangnya mungkin sudah berusaha sebaik mungkin untuk memenuhi tuntutan dari atas, tetapi ini tampak seperti contoh batas inovasi perusahaan besar
Ini lebih dekat ke 3DAssetGen daripada 'world model'
Ini tidak benar-benar menghasilkan dunia, hanya sekadar menggabungkan aset
Dunia yang dibuat manual jauh lebih baik, bahkan game buatan RPG Maker pun terasa lebih menarik
- Pada praktiknya, sepertinya ini hanya menghasilkan area persegi kecil. Dunia berbentuk grid seperti ini akan terasa tidak nyaman bagi pemain
  Tetap saja, sebagai percobaan awal ini punya makna, dan saya berharap AI bisa menurunkan hambatan pembuatan dunia metaverse
  Terutama jika mengingat bahwa membuat satu pulau kecil seperti di GTA saja membutuhkan waktu dan biaya yang sangat besar
- Di mana pun di halaman itu tidak ada istilah 'world model'
Mending beli model bangunan dari asset store seharga 5 dolar
Rasanya tidak masuk akal harus membangun data center bernilai puluhan miliar dolar dan merusak lingkungan demi membuat hal seperti ini
- Menurut saya, lebih baik uang itu dipakai untuk mendukung seniman low-poly seperti Quaternius
  Saya juga penasaran apakah para artis 3D belakangan ini masih punya kemauan untuk membagikan aset secara gratis
Nuansa video pertama mengingatkan pada Warcraft 3 atau DotA
Pernah ada masa ketika satu map sederhana sepenuhnya mengubah game online dan e-sports
Sekarang kita bisa membuat dunia on-demand dengan kualitas jauh lebih tinggi, tetapi justru map sederhana pada masa itu terasa lebih agung
Pada akhirnya, yang kita inginkan cuma SimCity yang lebih baik, jadi saya tidak paham mengapa perlu begitu banyak model pembangkitan dunia dan data center
Ironis rasanya menghabiskan listrik dan air dalam jumlah besar untuk membuat desa palsu
Saya sendiri sengaja tidak membeli konsol karena takut jadi kecanduan game seperti Red Dead
Saya mempertanyakan siapa yang sebenarnya diuntungkan oleh teknologi seperti ini
Saya mengklik tautannya dan mendapat error 404, lalu setelah mencari ternyata pada bulan Mei sudah ada proyek Worldgen dengan nama yang sama
Yang itu tampaknya jauh lebih baik dalam mewujudkan adegan 3D yang realistis
- Tetapi itu pada dasarnya lebih mirip trik yang membuat gambar 2D tampak seperti 3D
  Begitu kamera digerakkan sedikit saja, semuanya langsung rusak
Paper-nya sendiri cukup bagus
Ada detail-detail menarik tentang metode pemrosesan mesh individual
Tautan paper
Mereka beberapa kali memakai kata "interaktif", jadi saya sempat berharap ada interaksi sungguhan seperti membuka pintu atau mengambil barang,
tetapi ternyata maksudnya hanya bisa melihat-lihat dalam sudut pandang orang pertama
Dengan definisi seperti itu, semua model 3D juga bisa disebut interaktif
Pembuatan panorama berbasis difusi 2D → konversi ke point cloud → 3D lifting → 2D inpainting → optimisasi 3D Gaussian splatting
Jadi ini dibuat dengan menyambung-nyambungkan gambar menjadi 3D
Secara konsep, ini pendekatan yang sulit disebut world model, sehingga kekaburan istilahnya terasa disayangkan

WorldGen – Membuat dunia 3D imersif dari teks

Gambaran umum WorldGen

Struktur teknologi dan tahapan generasi

Perbedaan dari pendekatan yang ada

Kompatibilitas dan potensi penggunaan

Keterbatasan dan arah berikutnya

Signifikansi industri

Daftar ucapan terima kasih

Bacaan terkait

1 komentar

Komentar Hacker News