Model difusi adalah mesin game real-time

(gamengen.github.io)

1 poin oleh GN⁺ 2024-08-29 | 1 komentar | Bagikan ke WhatsApp

GameNGen menghasilkan transisi layar game klasik DOOM hanya dengan model jaringan saraf, sehingga interaksi real-time dimungkinkan tanpa mesin tradisional terpisah
Berjalan pada lebih dari 20fps di satu TPU, dengan tujuan mempertahankan kualitas visual dan responsivitas bahkan pada lintasan permainan yang panjang
Prediksi frame berikutnya mencatat PSNR 29.4, dan penilai manusia hanya bisa membedakan klip pendek dari game asli dan simulasi pada tingkat yang sedikit lebih baik dari tebakan acak
Pelatihan dilakukan berdasarkan catatan aksi dan observasi yang dibuat oleh agen RL, dengan model difusi yang menghasilkan frame berikutnya dari frame masa lalu dan urutan aksi
Untuk mengurangi drift autoregresif yang terakumulasi selama inferensi, noise Gaussian ditambahkan ke frame konteks saat pelatihan, dan ini berperan penting dalam stabilitas visual jangka panjang

Simulasi DOOM yang berjalan hanya dengan jaringan saraf

GameNGen adalah mesin game berbasis model jaringan saraf yang memungkinkan interaksi real-time sepanjang lintasan panjang di lingkungan yang kompleks
Demo tersebut adalah hasil simulasi rekaman real-time orang yang memainkan DOOM hanya dengan model jaringan saraf GameNGen
Kinerja dan kualitas difokuskan pada upaya mengurangi kemampuan membedakannya dari permainan nyata
- Mensimulasikan DOOM secara interaktif pada lebih dari 20fps di satu TPU
- Prediksi frame berikutnya mencapai PSNR 29.4
- PSNR ini setara dengan kompresi JPEG lossy
- Penilai manusia hanya bisa membedakan klip game pendek dan klip simulasi pada tingkat yang sedikit lebih baik dari tebakan acak
Materi terkait dapat dilihat di Paper dan Arxiv

Data pelatihan dan susunan model generatif

Pengumpulan data dilakukan dengan melatih agen RL otomatis, alih-alih mengumpulkan permainan manusia dalam skala besar
- Aksi dan observasi disimpan dari episode pelatihan agen
- Catatan aksi dan observasi yang tersimpan menjadi data pelatihan model generatif
Model generatif menggunakan kembali model difusi kecil Stable Diffusion v1.4
- Menghasilkan frame berikutnya dengan kondisi urutan aksi sebelumnya dan frame observasi
- Untuk mengurangi drift yang muncul dalam inferensi autoregresif, noise Gaussian ditambahkan ke frame konteks yang telah dienkode saat pelatihan
- Penyuntikan noise ini membuat model mengoreksi informasi yang diambil dari frame sebelumnya, sehingga penting untuk menjaga stabilitas visual dalam jangka waktu lama
Autoencoder prapelatihan Stable Diffusion v1.4 mengompresi patch piksel 8x8 menjadi 4 kanal laten
- Dalam prediksi frame game, muncul artefak yang terlihat pada detail kecil dan terutama pada bar HUD bagian bawah
- Untuk meningkatkan kualitas gambar, hanya decoder dari autoencoder laten yang dilatih dengan loss MSE terhadap piksel frame target

1 komentar

GN⁺ 2024-08-29

Komentar Hacker News

Saya terkejut karena model difusi tampaknya memuat lebih banyak sebab-akibat dan urutan daripada yang saya kira
Fakta bahwa Google memakai SD 1.4 sebagai inti model difusi ini juga menjadi pengingat yang bagus bahwa model terbuka berguna bahkan bagi perusahaan raksasa pemegang monopoli cloud
Yang berkesan dari ringkasannya adalah 1) mereka membuat agen memainkan Doom sehingga pada dasarnya memperoleh data pelatihan tak terbatas, 2) mereka menambahkan noise Gaussian ke frame asli lalu memberi reward agar frame berikutnya “dikoreksi” kembali, dan ini menjadi kunci untuk “rendering” yang stabil dalam jangka panjang
Bagian terakhir khususnya menarik karena memberikan intuisi bahwa model diajari koreksi kesalahan dan stabilitas
Saya juga penasaran apakah model ini bisa dilihat seperti “model berbasis Doom”, lalu di-fine-tune dengan gaya fotorealistik atau ray tracing agar lebih mudah mendapatkan rendering yang lebih enak dilihat
- Kalau melihat video demonya dengan cermat, sebab-akibat dan urutan itu perlu dinilai sedikit lebih rendah
  Pemain hampir tidak pernah kembali, tetapi ketika karakter benar-benar berbalik dan melihat hal yang sama lagi, tampilannya sudah banyak berubah. Ruangan dengan dinding abu-abu dan papan segitiga sangat mencolok
  Ini sesuai dengan perilaku yang diharapkan dari model difusi. Setelah dilatih dengan miliaran frame gameplay, model ini pandai membuat frame “berikutnya” yang masuk akal berdasarkan beberapa frame sebelumnya, tetapi tidak benar-benar memahami secara mendalam batasan game yang logis seperti mengingat struktur level
- Untuk meluruskan beberapa kesalahpahaman, model difusi itu sendiri tidak mempertahankan state
  Konsep seperti sebab-akibat mungkin saja sebagian terenkode dalam bobotnya, tetapi model hanya merender satu frame pada satu waktu. Dari awal ini adalah model teks-ke-gambar, bukan model teks-ke-video
  Alih-alih teks, state dan frame sebelumnya dimasukkan sebagai input untuk memprediksi frame berikutnya
  Noise ditambahkan ke frame sebelumnya sebelum dimasukkan ke model SD, dan bukan agen reinforcement learning yang “mengoreksi”nya
  Tujuan denoising banyak digunakan dalam machine learning, dan secara intuitif memaksa model prediksi memanfaatkan konteks seperti frame atau kata-kata di sekitarnya
  Di sini, hal itu membantu mencegah kesalahan kecil akibat keacakan model difusi generatif menumpuk dan menimbulkan drift autoregresif. Pada Figure 4, drift seperti itu terlihat saat pemain berdiri diam
- Ini lebih mirip memori video game yang memprediksi frame berikutnya berdasarkan beberapa frame sebelumnya, bukan game
  Semacam “bisa membayangkan apa yang mungkin terjadi berikutnya”
  Saya ingin menyebutnya kompresi video paling tidak efisien di dunia
  Yang benar-benar ingin saya lihat adalah kemampuan prediksi nyata, yaitu imajinasi. Itu tidak terlihat jelas di abstrak
  Model ini dilatih dengan set peta klasik; jika diberi beberapa frame gameplay dari peta yang tidak dikenal, apa yang akan dilakukannya? Seberapa baik ia bisa membayangkan kejadian berikutnya?
- Mengira perusahaan raksasa mencurahkan semua sumber dayanya ke setiap proyek adalah kekeliruan yang umum
  Makalah ini ditulis oleh empat penulis bersama. Mereka mungkin mendapat sumber daya yang cukup banyak, tetapi tetap harus berbagi dalam pool sumber daya yang dialokasikan untuk divisi riset
  Bahkan Google pun hanya punya Gemini dalam beberapa versi saja
- Kalau Google, mereka semestinya paling tahu soal ini setelah memo lama tentang LLM. Isinya kira-kira “kita kalah saat mencoba melawan atau bersaing dengan model terbuka”: https://www.semianalysis.com/p/google-we-have-no-moat-and-ne...
Fakta bahwa ini bisa berjalan saja sudah luar biasa sampai terasa tidak masuk akal, dan kemampuan rendering 20fps juga mengagumkan
Karena frame sebelumnya dan aksi harus dienkode lalu dimasukkan ke model di setiap langkah, ini terlihat seperti campuran model difusi dan jaringan saraf rekuren
Secara abstrak, rasanya seperti model bermimpi tentang game yang sudah banyak dimainkannya, sementara input real-time mengubah keadaan mimpi itu
Jadi penasaran apakah manusia juga merupakan mesin prediksi momen berikutnya, hanya saja dengan sedikit lebih banyak memori bawaan
- Cukup masuk akal kalau manusia punya kemampuan seperti ini
  Jika logikanya dibalik dan frame berikutnya dilihat sebagai hipotesis yang diperkirakan muncul sebagai hasil dari frame saat ini, membandingkan “hipotesis” ini dengan indra yang sebenarnya akan lebih mudah untuk memproses perbedaannya daripada memproses seluruh input sensorik
  Seperti yang dikatakan Richard Dawkins dalam podcast terbaru[1], gen adalah mesin prediksi yang hebat karena kelangsungan hidup bergantung pada prediksi. Jika melihat besarnya sumber daya yang dipakai untuk penglihatan, kemampuan menghasilkan prediksi visual memang masuk akal
  Kalau begitu, apa yang bisa diberitahukan afantasia kepada kita?
  [1] https://podcasts.apple.com/dk/podcast/into-the-impossible-wi...
- Manusia mungkin memang seperti itu. Setidaknya Lisa Feldman Barrett melihatnya demikian
  Podcast Lex Fridman “Counterintuitive Ideas About How the Brain Works”[2] layak didengarkan. Ia menjelaskan, antara lain, bahwa otak paling efisien ketika bekerja melalui prediksi berkelanjutan, bukan respons
  Ia juga komunikator sains yang hebat, jadi membuat ingin terus mendengarkan
  [1] https://en.wikipedia.org/wiki/Lisa_Feldman_Barrett
  [2] https://www.youtube.com/watch?v=NbdRIVCBqNI&t=1443s
- Benar. Lihat predictive coding: https://en.wikipedia.org/wiki/Predictive_coding
- Ini berjalan di seluruh v5 TPU: https://cloud.google.com/blog/products/ai-machine-learning/i...
  Tidak jelas bagaimana perbandingannya dengan GPU konsumen kelas atas seperti 3090, tetapi INT8 TFLOPS-nya terlihat mirip. TPU punya memori lebih sedikit (16GB vs 24GB), dan saya tidak begitu tahu spesifikasi lainnya
  Tetap saja ada yang terasa tidak pas. SD biasanya butuh setidaknya beberapa detik untuk menghasilkan satu output berkualitas tinggi bahkan di 3090, sedangkan di sini hampir satu orde magnitudo lebih cepat. Ini tampak berarti TPU jauh mengungguli GPU untuk tugas ini
  Sepertinya menghasilkan gambar beresolusi rendah (320x240), tetapi tetap terasa terlalu cepat
- Melihat manusia sebagai “mesin prediksi momen berikutnya” terasa terlalu reduksionistis
  Rasanya seperti berangkat dari AI lalu menelusuri balik ke atas, dan memaksakan semua kognisi ke dalam kerangka “prediktor sesuatu berikutnya”
  Pada akhirnya ini pengulangan perdebatan stochastic parrot
Setelah melihat thread ini, menurut saya perlu ditegaskan bahwa makalah ini tidak menjelaskan sistem yang menerima input pengguna secara real-time lalu mencerminkannya pada output
Namun, saya merasa wording abstraknya sangat mengisyaratkan seolah hal itu terjadi
Mereka melatihnya dengan data skala besar dari agen yang memainkan DOOM dan menyediakan sampel video untuk evaluasi pengguna, tetapi bukan dalam bentuk pengguna memasukkan input ke simulasi secara real-time lalu “memainkan DOOM” sekitar 20FPS
Di dalam makalah ada petunjuk berupa kalimat seperti “pertanyaan inti seperti bagaimana membuat game secara efektif sejak awal, dan bagaimana memanfaatkan input manusia sebaik mungkin masih tersisa”, serta “tujuan akhirnya adalah membuat pemain manusia berinteraksi dengan simulasi”
Yang paling penting, tidak ada bagian yang menjelaskan gameplay pengguna secara real-time
- Karena modelnya belum dirilis, kita tidak bisa menilai langsung kualitas gameplay-nya, tetapi salah satu penulis mengatakan “bisa dimainkan, dan video di halaman proyek adalah gameplay sungguhan”: https://x.com/shlomifruchter/status/1828850796840268009
  Video di bagian atas https://gamengen.github.io/ juga diawali dengan “ini adalah rekaman real-time orang-orang yang memainkan game”
  Melihat klaim-klaim ini, tampaknya pada akhir proyek mereka membuat sistem yang bisa dimainkan dan dapat diberikan kepada manusia. Namun mungkin saja itu belum terjadi saat drafnya diunggah ke arXiv
- Awalnya saya juga berpikir begitu, tetapi kalau membaca ulang makalahnya, bukan abstraknya, ternyata berbeda
  Tertulis “A adalah himpunan input tombol dan gerakan mouse…” dan “…untuk mengondisikan pada aksi, kami mempelajari embedding A_emb untuk tiap aksi”
  Dengan kata lain, proses difusi model ini dikondisikan bukan pada kata, melainkan pada embedding aksi A yang berasal dari tindakan pengguna
  Lalu frame awal yang sudah bercampur noise dienkode menjadi representasi laten dan digabungkan sebagai kondisi kedua ke representasi laten ber-noise
  Pada akhirnya ini adalah model difusi yang dilatih hanya dengan gambar Doom, lalu menghasilkan frame berikutnya dengan dikondisikan pada frame Doom saat ini dan tindakan pengguna
  Jadi pengguna memang benar-benar sedang bermain
  Namun fakta bahwa ini mungkin dilakukan bukanlah hal yang mengejutkan. Pada dasarnya ini adalah rekaman neural network dari game tersebut, tetapi tetap demo teknologi yang keren
- Memang makalahnya seharusnya menuliskan bagian ini dengan lebih jelas, tetapi karena kalimat di bagian 5.2.3, saya menganggapnya bisa dimainkan dan memang dimainkan oleh manusia
  Tertulis “saat memainkan model secara manual, beberapa area sangat mudah bagi keduanya, beberapa area sangat sulit bagi keduanya, dan di beberapa area agen jauh lebih baik”
  Mungkin saya kurang imajinatif, tetapi saya tidak bisa memikirkan tafsir masuk akal lain untuk “memainkan model secara manual”
- Penjelasan itu mengingatkan saya pada proyek keren ini:
  https://www.youtube.com/watch?v=udPY5rQVoW0
  “Playing a Neural Network's version of GTA V: GAN Theft Auto”
- Itu keliru. Ini adalah simulasi interaktif yang bisa dimainkan manusia
  “Figure 1: a human player is playing DOOM on GameNGen at 20 FPS.”
  Kalimat abstraknya ambigu sehingga banyak kebingungan muncul di sini, tetapi makalahnya jelas pada poin ini
  Cukup mengecewakan melihat informasi keliru seperti ini mendapat banyak rekomendasi di forum yang berisi banyak pakar teknis
Upaya untuk menjalankan Doom di segala hal terus berlanjut
Secara teknis, bukankah ini anti-Doom terbesar yang mungkin ada, yaitu Doom dengan kebutuhan hardware tertinggi?
Lucu bahwa jika spesifikasi hardware diletakkan pada sumbu linear, sekarang Doom ada di kedua ujungnya
- Saat membaca bagian ini, saya kira maksudnya adalah karena secara teknis ini sama sekali tidak menjalankan Doom
  Dengan kata lain, bukan mem-porting dan menjalankannya tanpa lingkungan hardware/software asli Doom, melainkan menjalankan Doom tanpa Doom itu sendiri
- Kalau ini Doom dengan kebutuhan hardware tertinggi, bukankah itu juga bisa dibuat dengan menetapkan target rendering ray casting setinggi apa pun secara arbitrer?
- Ini No-Doom
- Anti-Doom yang benar-benar hebat adalah ketika model-model seperti ini ditumpuk tanpa batas, dengan model memprediksi model, dan pada ujungnya memprediksi Doom
  Tahap anti-Doom berikutnya adalah model yang menghasilkan model yang kemudian menghasilkan output Doom
- Analogi yang lebih dekat di sini sepertinya “menjalankan Minecraft di dalam Minecraft”: https://news.ycombinator.com/item?id=32901461
Persyaratan sistem Doom:
RAM 4MB, ruang disk 12MB
Stable Diffusion v1 terdiri dari UNet 860M dan CLIP ViT-L/14 (540M), ukuran checkpoint 4,27GB, EMA penuh 7,7GB
Dijalankan di TPU-v5e; performa komputasi maksimum per chip adalah bf16 197 TFLOPs, Int8 393 TFLOPs, kapasitas dan bandwidth HBM2 masing-masing 16GB dan 819GBps, bandwidth koneksi antarchip 1600Gbps
Mengingat kecepatannya, ini cukup mengesankan, tetapi ruang untuk perbaikan masih sangat besar. Dari sisi kapasitas, seharusnya bisa menghafalnya ratusan kali, tetapi tampaknya game itu tidak sepenuhnya dihafal
Jadi jelas ada banyak ruang untuk metode optimasi. Namun, karena tujuannya di sini adalah penghafalan, tidak tahu bagaimana teknik semacam itu akan berdampak pada teknologi yang sudah ada
Hal yang menarik adalah ini berarti, jika cukup banyak “dimainkan”, diotomatisasi, serta memakai jauh lebih banyak penyimpanan dan komputasi, sebuah game bisa diekstrak
Saya penasaran bagaimana perbandingan biaya dan waktunya dibanding mempekerjakan engineer untuk merekayasa balik Doom. Sejauh mana pengetahuan awal boleh digunakan juga ambigu. Mengingat model pralatih dan lingkungan ViZDoom, saya juga penasaran apakah source Doom ada di T5, dan checkpoint ViT mana yang digunakan
Saya benar-benar ingin melihat checkpoint model ini. Jika orang-orang membongkarnya, sepertinya mereka akan menemukan hal yang sangat menarik
https://www.reddit.com/r/gaming/comments/a4yi5t/original_doo...
https://huggingface.co/CompVis/stable-diffusion-v-1-4-origin...
https://cloud.google.com/tpu/docs/v5e
https://github.com/Farama-Foundation/ViZDoom
https://zdoom.org/index
- Poinnya valid, tetapi dalam konteks riset ini bukan inti utamanya
  Dibandingkan game aslinya, biaya komputasinya memang tidak masuk akal, dan benar juga bahwa elemen dasar seperti prakomputasi atau penyimpanan masih kurang
  Namun hal-hal seperti itu bisa dianggap dapat diselesaikan di sekitar temuan ini, membaik secara alami seiring waktu, atau menjadi kurang penting sebagai bottleneck
  Terobosan sebenarnya adalah kemampuannya memodelkan urutan frame yang sadar konteks seperti itu tanpa meng-encode-nya secara eksplisit. Itu berlaku baik dari sudut pandang game murni maupun dari sudut pandang simulasi secara umum
- “Mengekstrak” game hanyalah bagian kecil
  Makna yang lebih besar adalah bisa menciptakan game dari video dunia nyata
  Jika membutuhkan simulator penerbangan yang sempurna, cukup pasang GoPro di setiap kokpit pesawat penumpang selama 1 tahun
Membaca komentar mati di tulisan seperti ini selalu menyenangkan. Saya suka bagaimana mereka menunjukkan betapa tidak berartinya hal itu
Sebagian orang perlu belajar membuat sesuatu hanya demi kesenangan membuatnya
Apakah ini berguna? Sebenarnya tidak terlalu. Apakah ini menarik? Jelas iya
Tidak semua hal harus dibuat demi keuntungan. Tidak juga harus dibuat untuk membuat dunia lebih baik
Kadang tujuannya bisa berupa belajar, tantangan, dan melihat apa yang mungkin
Waktu yang dihabiskan untuk bersenang-senang tidak pernah sia-sia. Saat menjelang ajal nanti, mungkin ada orang-orang yang menyesal karena tidak lebih banyak bersenang-senang
- Skeptisisme dan kritik di thread ini ditujukan pada hype AI
  Ucapan “ini benar-benar luar biasa” menyiratkan anggapan bahwa dalam waktu dekat semua software bisa diganti dengan model AI untuk menciptakan pengalaman video game apa pun yang bisa dibayangkan
  Realistisnya, ini adalah bentuk Doom paling tidak efisien dan paling tidak andal yang pernah dibuat. Ia secara harfiah memakai komputasi jutaan kali lebih banyak daripada PC x86 awal yang sudah bisa merender dan memainkan Doom secara real-time
  Tentu saja, ini tetap semacam atraksi yang menyenangkan
- Benar sekali. Budaya hustle terlihat seperti penyakit yang menyebar dan menggantikan budaya maker yang menyenangkan pada era 80–90-an
  Ada sisi yang sulit dihindari juga. Biaya hidup terus makin mahal, dan romantisasi entrepreneur seperti rockstar mengarah pada pola pikir hustle seperti ini
- Saat ini eksperimen ini tampak tidak bermakna
  Namun saya ingat masa ketika ada tulisan tentang kemungkinan “radio internet”. Alih-alih seperti dulu memancarkan gelombang siaran ke udara lalu ribuan radio menyetelnya, sebuah server mengirimkan paket dalam jumlah sangat besar melalui kabel tembaga yang sangat panjang ke ribuan endpoint
  Bahkan fakta bahwa endpoint mengirim paket ACK balik ke server malang itu demi menjaga koneksi tampak seperti pemborosan daya komputasi, kabel, dan energi
  Namun sekarang kita maraton menonton film Netflix lewat kabel tembaga semacam itu
  Saya tidak mengatakan game akan digantikan oleh model difusi yang memimpikan gambar berikutnya berdasarkan input pengguna, tetapi variannya bisa menjadi penciptaan seni interaktif atau bentuk hiburan baru
- Saya tidak menganggap ini tidak berguna. Ini adalah batu loncatan menuju pembuatan game yang sepenuhnya baru
- Saya penasaran dengan jejak karbon dari kesenangan itu
Mengesankan, tetapi sulit untuk setuju. Model difusi bukanlah game engine
Game engine adalah komponen yang mendorong game sepanjang sumbu waktu. Jadi mirip dengan mesin mobil, dan namanya juga berasal dari situ
Agar sebuah mesin bekerja, ia tidak membutuhkan mobil yang sudah jadi atau jalan untuk dilalui
Hal di atas lebih mirip replikasi interaktif secara dinamis atas apa yang terjadi ketika sebuah mobil diletakkan di jalan tertentu, dan harus diuji jalan sejuta kali dengan kendaraan yang berfungsi
Kalau itu engine, ia seharusnya juga bekerja di medan off-road
- Ini lebih merupakan kritik terhadap model hasil yang dilatih secara spesifik, bukan model difusi secara umum
  Daripada mengatakan dalam bentuk sekarang, “untuk melakukan tugas itu diperlukan mobil yang berfungsi di atas jalan”, lebih tepat mengatakan dalam bentuk lampau, “itu diperlukan untuk melatihnya melakukan tugas tersebut”
  Juga tidak jelas mengapa game engine yang memakai konsep yang diperoleh dari cara kerja engine lain menjadi bukan game engine
  Kalau melihat model difusi secara umum, sebagaimana model difusi biasanya tidak hanya menghasilkan sesuatu yang persis sama dengan gambar latih, tetapi bisa melakukan interpolasi atau menerapkan konsep individual untuk membuat keluaran baru, tampaknya tidak ada alasan untuk berasumsi bahwa pendekatan ini tidak dapat bekerja di luar “lintasan uji” yang telah dipelajari
- Ini poin yang menarik
  Dalam arti tertentu, ini adalah game engine tersimulasi yang dilatih dengan data game engine nyata
  Namun jika game engine simulasi yang berfungsi dapat “mendorong game”, menurut saya itu sendiri sudah menjadi game engine. Bagaimana cara mencapainya tidak penting
  Di satu sisi manusia membuat kontennya, di sisi lain ia meniru konten game yang sudah ada, tetapi pemain tidak peduli
  Bisa dibayangkan “game engine generatif” semacam ini juga dapat pergi off-road. Misalnya dengan mengekstrapolasi apa yang akan terjadi saat mencapai tempat yang belum pernah dilihat
  Bahkan kemampuan ekstrapolasi model seperti ini mungkin lebih baik daripada game engine tradisional. Pada game engine biasa, jika kebetulan menembus dinding, layar bisa menjadi kosong, tetapi model ini dapat mengarangnya sambil terus berjalan
Kondisi teks pada model SD memang tidak masuk karena telah dihapus, tetapi dalam waktu dekat bisa dibayangkan membuat game baru yang menarik hanya dengan prompt teks
Untuk mempelajari seperti apa DOOM dan bagaimana ia bekerja, mereka memang harus memakai reinforcement learning, tetapi ini tidak selalu berarti masalah ayam dan telur
Mirip dengan bagaimana LLM dapat menulis cerita baru meskipun hanya dilatih dari teks yang sudah ada
Salah satu tantangan terbesar pendekatan ini mungkin adalah game open-world, dengan jumlah state yang secara praktis tak terbatas
Makalahnya juga mengatakan mereka kesulitan membuat agen reinforcement learning menjelajahi semua sudut DOOM secara penuh
Factorio atau Dwarf Fortress tampaknya belum akan segera disimulasikan. Mungkin
- Dengan komputasi yang cukup, bobot neural network akan berkumpul pada representasi laten yang sangat terkompresi dari source code DOOM
  Mungkin bahkan lebih kecil daripada source code itu sendiri. Orang yang berkecimpung di bidang ini mungkin bisa mengoreksi
  Pada titik itu, pada dasarnya ia akan “merender” game dengan menginterpolasi source code di ruang laten. Seolah ada seluruh komputer ruang laten yang memiliki engine, aset, tekstur, dan software renderer
  Dengan komputer yang cukup kuat, interpolasi ruang laten antara game seperti Factorio dan TF2 juga bisa dibayangkan. Lalu kita dapat menyetel ruang laten ini dengan memberi kondisi pada aspek gameplay yang diinginkan
  Masa depan seperti ini akan datang sangat cepat pada sebagian pipeline, seperti tahap akhir rendering. Misalnya DLSS sudah tersedia secara komersial
  Suatu hari nanti, ketika semua orang dibaut ke metaverse neural network, pendapatan Nvidia mungkin kembali lagi ke gaming
  Saya sangat suka mereka memilih DOOM
- Serupa dengan itu, kita juga bisa menjalankan game engine yang sangat sederhana agar hanya mengeluarkan wireframe beresolusi rendah, lalu meng-upscale-nya
  Caranya adalah mencurahkan semua upaya hanya pada mekanika game, bukan pada kualitas visual
  Saya berharap pendekatan seperti ini lebih baik dalam mengurangi inkonsistensi visual, seperti saat kita menoleh lalu melihat kembali dan monster merah berubah menjadi sekutu biru
- Jika menurut Anda bisa membuat “game baru yang menarik hanya dengan prompt teks”, coba saja tulis prompt semacam itu sendiri
  Anda bisa mulai dari game platform yang relatif sederhana seperti Mario
  Setelah menulis sekitar 300 halaman dan masih baru menjelaskan kira-kira separuhnya, Anda akan mengerti mengapa ini hanyalah harapan optimistis
- Sebenarnya tidak begitu. Ini adalah reproduksi level pertama Doom. Tidak ada hal baru yang dibuat
- Video game dalam waktu dekat akan berubah luar biasa
  Mungkin satu orang bisa berbicara dengan model dan membuat sesuatu setara judul AAA masa kini
  Bayangkan saja boom side-scroller 2D di Steam, tetapi kali ini berupa game 3D fotorealistis imersif, dengan fisika hiperrealistis (aliran air, api yang menyebar, tornado), serta kemungkinan deformasi dan konstruksi penuh
  Modelnya telah dipralatih dengan video dunia nyata, dan game hanyalah semacam “gaya” yang sedikit menyesuaikan prior atas tampilan, latar, dan cerita
Jadi kalau game-nya sudah dibuat, barulah model difusi disebut game engine? Untuk melatih model, game diperlukan. Bukankah ini masalah ayam dan telur?
- Ada beberapa ide
  Kita bisa membuat versi game engine yang tidak real-time, lalu memakai neural network sebagai aproksimasi real-time
  Kita juga bisa menyunting video yang direkam di dunia nyata dengan menambahkan hal seperti HUD, lalu melatih neural network untuk mensimulasikan dunia nyata, bukan Doom
  Makalah ini memakai 900 juta frame; pada 30fps sepertinya itu sekitar satu tahun video. Perbaikan algoritme mungkin dapat mengurangi kebutuhan pelatihan
  Satu tahun video sebenarnya juga bukan jumlah yang terlalu besar. Misalnya, rekrut 500 orang, pasangi GoPro, akselerometer, dan giroskop di kepala serta senjata paintball mereka, lalu minta mereka bermain paintball selama akhir pekan, dan mungkin Anda bisa mendapatkan satu tahun video
- Jika dilatih dengan berbagai game, ia dapat membuat game baru yang belum pernah ada, sebagaimana model pembuat gambar dapat membuat gambar baru yang belum pernah ada
- Langkah berikutnya mungkin menambahkan panduan teks untuk menghasilkan game yang tidak ada
- Bukankah hal yang sama juga bisa dikatakan tentang gambar generatif?
- Di masa depan, teknik scientific machine learning yang dapat mengenkode fisika dan hukum yang diketahui ke dalam model mungkin menjadi model fondasi
  Lalu model lain di atasnya tinggal melakukan fine-tuning pada detail untuk menyesuaikan game
Model difusi tidak bisa menjadi game engine. Sebab, game engine harus bisa membuat game baru dan mengubah aturan game yang sudah ada secara real time
Bahkan harus bisa mengubah aturan yang tidak terlihat di layar sekalipun
Alat seperti ini memang menarik, tetapi seperti semua hype AI, perlu ada disclaimer
Alat ini bukan membuat game, melainkan hanya mengambil sampel dari game buatan manusia lalu menghasilkan tampilan frame dan mekanisme bermainnya
- Kalau aturan yang sama sekali tidak terlihat di layar berubah, apakah aturan itu benar-benar berubah?
  “Hanya” menghasilkan? Saya paham bahwa secara mekanis itu bisa saja sederhana, tetapi fakta bahwa ia memampatkan distribusi bersyarat sekaya itu sama sekali tidak terlihat sederhana
- Mereka hanya melatihnya pada satu game, dan hanya menyematkan input kontrol
  Jika dilatih pada banyak game dan menyematkan jauh lebih banyak informasi tentang tiap game, ada kemungkinan kita bisa menentukan prompt yang mendeskripsikan game lalu memainkannya
- Saya ingin melihat game yang dirender dengan aset low-poly atau disegmentasi dengan cara tertentu, lalu model difusi dipakai untuk menambahkan detail seni yang realistis atau bergaya
  Dengan begitu, kita bisa mendapatkan manfaat nyata sambil memperbaiki masalah konsistensi
- Judulnya seharusnya “model difusi dapat digunakan untuk merender frame ketika diberikan input pengguna”
- Pada akhirnya, bukankah ini hanya menghasilkan video gameplay yang sedikit berbeda dari video yang dipakai untuk pelatihan?

Model difusi adalah mesin game real-time

Simulasi DOOM yang berjalan hanya dengan jaringan saraf

Data pelatihan dan susunan model generatif

Bacaan terkait

1 komentar

Komentar Hacker News