Diffusion Models Are Real-Time Game Engines
- GameNGen: mesin game pertama yang digerakkan oleh model saraf, yang menghadirkan interaksi real-time berkualitas tinggi dengan lingkungan yang kompleks
- Simulasi DOOM: dapat mensimulasikan game klasik DOOM secara interaktif pada lebih dari 20 frame per detik di satu TPU
- PSNR: mencapai 29,4 PSNR dalam prediksi frame berikutnya, yang sebanding dengan kompresi JPEG lossy
- Evaluator manusia: evaluator manusia hanya sedikit lebih baik daripada tebakan acak dalam membedakan klip game dan klip simulasi
Video gameplay lengkap
Pengumpulan data melalui permainan agen
- Agen RL otomatis: karena tidak mungkin mengumpulkan data gameplay manusia dalam skala besar, pada tahap pertama agen RL otomatis dilatih untuk memainkan game, lalu tindakan dan observasi dari episode pelatihan ini dicatat dan digunakan sebagai data pelatihan untuk model generatif
Pelatihan model difusi generatif
- Stable Diffusion v1.4: menggunakan kembali model difusi kecil yang dikondisikan pada urutan tindakan dan observasi (frame) sebelumnya
- Penambahan noise Gaussian: selama pelatihan, noise Gaussian ditambahkan ke frame yang telah dienkode untuk merusak frame konteks, sehingga jaringan dapat memperbaiki informasi yang disampel dari frame sebelumnya. Ini penting untuk menjaga stabilitas visual dalam jangka waktu panjang
Fine-tuning decoder laten
- Autoencoder pralatih Stable Diffusion v1.4: mengompresi patch piksel 8x8 menjadi 4 kanal laten, yang menimbulkan artefak berarti saat memprediksi frame game. Hal ini terutama memengaruhi detail kecil dan HUD bilah bawah
- Pelatihan decoder: untuk meningkatkan kualitas gambar, hanya decoder dari autoencoder laten yang dilatih dengan menghitung loss MSE terhadap piksel frame target
Ringkasan GN⁺
- GameNGen adalah mesin game pertama yang menggunakan model saraf untuk berinteraksi dengan lingkungan game kompleks secara real-time
- Melalui simulasi DOOM, sistem ini memberikan prediksi frame berkualitas tinggi dan cukup canggih hingga evaluator manusia kesulitan membedakan antara game asli dan simulasi
- Efisiensi ditingkatkan dengan menggunakan kembali model yang sudah ada seperti Stable Diffusion v1.4, serta menjaga stabilitas visual melalui teknik seperti penambahan noise Gaussian
- Kualitas gambar ditingkatkan melalui fine-tuning decoder laten, sehingga detail pada frame game dapat dipertahankan
1 komentar
Komentar Hacker News
Model difusi Google yang menggunakan SD 1.4 tampaknya memuat lebih banyak sebab, akibat, dan urutan daripada yang diperkirakan
Makalah ini tidak menjelaskan sistem yang menerima input pengguna secara real-time lalu menyesuaikan output
Mengejutkan bahwa model ini bisa merender pada 20fps
Upaya untuk menjalankan Doom di segala hal terus berlanjut
Lucu membaca komentar yang menyebut ini tidak bermakna
Perbandingan kebutuhan sistem Doom dan Stable Diffusion v1
Peran game engine adalah merender dunia
Meskipun kondisi teks tidak diberikan, mungkin saja membuat game baru hanya dengan text prompt