- WorldGen dari Meta adalah sistem AI generatif end-to-end yang secara otomatis membuat dunia 3D yang dapat dijelajahi dari satu prompt teks
- Menggabungkan penalaran prosedural, generasi 3D berbasis difusi, dan dekomposisi adegan berbasis pengenalan objek untuk membangun lingkungan yang konsisten secara geometris dan kaya secara visual
- Proses generasinya terdiri dari empat tahap: Planning, Reconstruction, Decomposition, dan Refinement
- Hasilnya kompatibel dengan engine game standar seperti Unity dan Unreal, serta dapat digunakan tanpa proses konversi terpisah
- Memiliki potensi untuk membuat pembuatan konten 3D yang kompleks dan mahal menjadi dapat diakses oleh siapa saja sekaligus lebih efisien
Gambaran umum WorldGen
- WorldGen dapat membuat dunia 3D interaktif dalam hitungan menit hanya dari masukan teks seperti “cartoon medieval village” atau “sci-fi base station on Mars”
- Dunia yang dihasilkan mempertahankan konsistensi gaya dan tema, serta terhubung dalam struktur yang memungkinkan karakter bergerak bebas
- Berdasarkan kemajuan teknologi AI generatif, sistem ini dapat membangun lingkungan 3D lengkap dari satu prompt teks atau gambar
Struktur teknologi dan tahapan generasi
- WorldGen dimulai dengan tahap perencanaan yang mencakup pembuatan blockout prosedural, ekstraksi Navmesh, dan pembuatan gambar referensi
- Setelah itu, dilanjutkan dengan tahap rekonstruksi yang melakukan konversi gambar-ke-3D, pembuatan adegan berbasis Navmesh, dan pembuatan tekstur dasar
- AutoPartGen digunakan untuk dekomposisi adegan dan kurasi data guna memisahkan elemen-elemen detail
- Terakhir, dilakukan tahap penyempurnaan melalui peningkatan gambar, pemurnian mesh, dan model tekstur
Perbedaan dari pendekatan yang ada
- Sistem yang ada selama ini berfokus pada satu sudut pandang (viewpoint) sehingga kualitasnya menurun tajam di area luar pusat
- WorldGen menghasilkan adegan bertekstur lengkap berukuran 50×50 meter sambil mempertahankan konsistensi gaya dan geometri
- Riset sedang dilanjutkan dengan target skala dunia yang lebih besar di masa depan
Kompatibilitas dan potensi penggunaan
- Saat ini masih berada pada tahap riset dan belum dibuka untuk developer, tetapi konten yang dihasilkan dapat langsung digunakan di Unity dan Unreal
- Tidak memerlukan konversi pipeline rendering terpisah
Keterbatasan dan arah berikutnya
- Model saat ini masih memiliki ruang perbaikan dalam aspek ukuran ruang dan latensi generasi
- Versi mendatang menargetkan pembuatan ruang yang lebih besar dan peningkatan kecepatan
Signifikansi industri
- Mengurangi kompleksitas dan beban biaya pembuatan konten 3D, serta membuka kemungkinan agar nonspesialis pun dapat membangun dunia virtual
- Sejalan dengan visi Meta yang disampaikan di acara Connect tentang “masa depan di mana siapa pun dapat membuat dunia virtual tanpa menulis satu baris kode pun”
Daftar ucapan terima kasih
- Proyek ini dikerjakan oleh tim Reality Labs 3D GenAI
- Kontributor utama: Dilin Wang, Hyunyoung Jung, Tom Monnier, Kihyuk Sohn, dan lainnya (tanda † menunjukkan project lead)
1 komentar
Komentar Hacker News
Ini demo yang menarik, tetapi kita tidak bisa masuk ke dalam bangunan, ukuran bangunan dan tata letak desanya hampir sama, dan ada banyak ketidakkonsistenan visual
Pada akhirnya, rasanya seperti sekadar menempatkan kotak-kotak serupa di atas grid lalu berkeliaran di antaranya
Saya paham kemajuan itu terjadi secara bertahap, tetapi dibanding demo pembangkitan dunia lainnya, ini terlihat seperti langkah yang terlalu kecil
Semua bangunan ditempatkan di atas grid dengan jarak yang seragam, dan tampaknya juga ada batas ketinggian
Game open-world realistis (GTA, Cyberpunk, dll.) justru sengaja punya 'kepadatan yang didesain' seperti jalan buntu atau pintu terkunci
Jika semua jalan menuju tempat yang menarik, justru kesenangan menjelajah bisa hilang
Jika pendekatannya memakai aset eksplisit, bisa jadi ini lebih cocok untuk pembuatan game
Meta telah menerbitkan banyak paper kunci di bidang ini dan juga punya Hyperscape, jadi ini bisa dilihat sebagai eksperimen ke arah yang berbeda
Saya penasaran kapan hari itu akan datang ketika pengguna biasa juga bisa langsung mencoba engine worldgen seperti ini
Saya juga bertanya-tanya mengapa Google, Meta, dan Tencent terus hanya mendemokan hal-hal seperti ini tanpa benar-benar merilisnya
Ini terlihat seperti pipeline rekayasa yang menggabungkan teknologi GenAI yang sudah ada
Hasilnya juga bukan di level SOTA, dan alih-alih kemajuan, ini terasa seperti pendekatan jalan buntu
Inovasi yang sesungguhnya seharusnya adalah langsung menghasilkan mesh bertekstur dengan model yang dilatih end-to-end, dan fakta bahwa itu belum tercapai bisa berarti teknologi intinya masih kurang
Meski begitu, ini tampaknya masih bisa dipakai untuk bootstrap dataset pelatihan model di masa depan
Ini lebih dekat ke 3DAssetGen daripada 'world model'
Ini tidak benar-benar menghasilkan dunia, hanya sekadar menggabungkan aset
Dunia yang dibuat manual jauh lebih baik, bahkan game buatan RPG Maker pun terasa lebih menarik
Tetap saja, sebagai percobaan awal ini punya makna, dan saya berharap AI bisa menurunkan hambatan pembuatan dunia metaverse
Terutama jika mengingat bahwa membuat satu pulau kecil seperti di GTA saja membutuhkan waktu dan biaya yang sangat besar
Mending beli model bangunan dari asset store seharga 5 dolar
Rasanya tidak masuk akal harus membangun data center bernilai puluhan miliar dolar dan merusak lingkungan demi membuat hal seperti ini
Saya juga penasaran apakah para artis 3D belakangan ini masih punya kemauan untuk membagikan aset secara gratis
Nuansa video pertama mengingatkan pada Warcraft 3 atau DotA
Pernah ada masa ketika satu map sederhana sepenuhnya mengubah game online dan e-sports
Sekarang kita bisa membuat dunia on-demand dengan kualitas jauh lebih tinggi, tetapi justru map sederhana pada masa itu terasa lebih agung
Pada akhirnya, yang kita inginkan cuma SimCity yang lebih baik, jadi saya tidak paham mengapa perlu begitu banyak model pembangkitan dunia dan data center
Ironis rasanya menghabiskan listrik dan air dalam jumlah besar untuk membuat desa palsu
Saya sendiri sengaja tidak membeli konsol karena takut jadi kecanduan game seperti Red Dead
Saya mempertanyakan siapa yang sebenarnya diuntungkan oleh teknologi seperti ini
Saya mengklik tautannya dan mendapat error 404, lalu setelah mencari ternyata pada bulan Mei sudah ada proyek Worldgen dengan nama yang sama
Yang itu tampaknya jauh lebih baik dalam mewujudkan adegan 3D yang realistis
Begitu kamera digerakkan sedikit saja, semuanya langsung rusak
Paper-nya sendiri cukup bagus
Ada detail-detail menarik tentang metode pemrosesan mesh individual
Tautan paper
Mereka beberapa kali memakai kata "interaktif", jadi saya sempat berharap ada interaksi sungguhan seperti membuka pintu atau mengambil barang,
tetapi ternyata maksudnya hanya bisa melihat-lihat dalam sudut pandang orang pertama
Dengan definisi seperti itu, semua model 3D juga bisa disebut interaktif
Pembuatan panorama berbasis difusi 2D → konversi ke point cloud → 3D lifting → 2D inpainting → optimisasi 3D Gaussian splatting
Jadi ini dibuat dengan menyambung-nyambungkan gambar menjadi 3D
Secara konsep, ini pendekatan yang sulit disebut world model, sehingga kekaburan istilahnya terasa disayangkan