1 poin oleh GN⁺ 2024-08-29 | 1 komentar | Bagikan ke WhatsApp

Diffusion Models Are Real-Time Game Engines

  • GameNGen: mesin game pertama yang digerakkan oleh model saraf, yang menghadirkan interaksi real-time berkualitas tinggi dengan lingkungan yang kompleks
  • Simulasi DOOM: dapat mensimulasikan game klasik DOOM secara interaktif pada lebih dari 20 frame per detik di satu TPU
  • PSNR: mencapai 29,4 PSNR dalam prediksi frame berikutnya, yang sebanding dengan kompresi JPEG lossy
  • Evaluator manusia: evaluator manusia hanya sedikit lebih baik daripada tebakan acak dalam membedakan klip game dan klip simulasi

Video gameplay lengkap

Pengumpulan data melalui permainan agen

  • Agen RL otomatis: karena tidak mungkin mengumpulkan data gameplay manusia dalam skala besar, pada tahap pertama agen RL otomatis dilatih untuk memainkan game, lalu tindakan dan observasi dari episode pelatihan ini dicatat dan digunakan sebagai data pelatihan untuk model generatif

Pelatihan model difusi generatif

  • Stable Diffusion v1.4: menggunakan kembali model difusi kecil yang dikondisikan pada urutan tindakan dan observasi (frame) sebelumnya
  • Penambahan noise Gaussian: selama pelatihan, noise Gaussian ditambahkan ke frame yang telah dienkode untuk merusak frame konteks, sehingga jaringan dapat memperbaiki informasi yang disampel dari frame sebelumnya. Ini penting untuk menjaga stabilitas visual dalam jangka waktu panjang

Fine-tuning decoder laten

  • Autoencoder pralatih Stable Diffusion v1.4: mengompresi patch piksel 8x8 menjadi 4 kanal laten, yang menimbulkan artefak berarti saat memprediksi frame game. Hal ini terutama memengaruhi detail kecil dan HUD bilah bawah
  • Pelatihan decoder: untuk meningkatkan kualitas gambar, hanya decoder dari autoencoder laten yang dilatih dengan menghitung loss MSE terhadap piksel frame target

Ringkasan GN⁺

  • GameNGen adalah mesin game pertama yang menggunakan model saraf untuk berinteraksi dengan lingkungan game kompleks secara real-time
  • Melalui simulasi DOOM, sistem ini memberikan prediksi frame berkualitas tinggi dan cukup canggih hingga evaluator manusia kesulitan membedakan antara game asli dan simulasi
  • Efisiensi ditingkatkan dengan menggunakan kembali model yang sudah ada seperti Stable Diffusion v1.4, serta menjaga stabilitas visual melalui teknik seperti penambahan noise Gaussian
  • Kualitas gambar ditingkatkan melalui fine-tuning decoder laten, sehingga detail pada frame game dapat dipertahankan

1 komentar

 
GN⁺ 2024-08-29
Komentar Hacker News
  • Model difusi Google yang menggunakan SD 1.4 tampaknya memuat lebih banyak sebab, akibat, dan urutan daripada yang diperkirakan

    • Agen dibuat memainkan Doom untuk mendapatkan data pelatihan tanpa batas
    • Noise Gaussian ditambahkan ke frame sumber, lalu agen diberi imbalan saat "memperbaiki" frame berurutan
    • Penting untuk mengajarkan model memperbaiki kesalahan dan menjaga stabilitas
    • Menarik apakah model ini bisa di-fine-tune ke gaya "fotorealistik" atau ray tracing
  • Makalah ini tidak menjelaskan sistem yang menerima input pengguna secara real-time lalu menyesuaikan output

    • Model dilatih dengan kumpulan data besar dari agen yang memainkan Doom
    • Input pengguna tidak tercermin ke simulasi secara real-time
    • Penjelasan tentang permainan pengguna real-time tidak ada dalam makalah
  • Mengejutkan bahwa model ini bisa merender pada 20fps

    • Terlihat seperti persilangan antara model difusi dan RNN
    • Mirip seperti model sedang memimpikan game yang sudah sering dimainkannya
    • Manusia juga mungkin merupakan mesin yang memprediksi momen berikutnya
  • Upaya untuk menjalankan Doom di segala hal terus berlanjut

    • Model ini adalah Doom dengan kebutuhan perangkat keras tertinggi
    • Doom berada di kedua ujung spektrum spesifikasi perangkat keras
  • Lucu membaca komentar yang menyebut ini tidak bermakna

    • Tidak semua hal harus dibuat demi keuntungan
    • Membuat sesuatu demi pengalaman belajar, tantangan, dan rasa ingin tahu juga penting
    • Waktu yang dinikmati tidak pernah terbuang sia-sia
  • Perbandingan kebutuhan sistem Doom dan Stable Diffusion v1

    • Doom: RAM 4MB, ruang disk 12MB
    • Stable Diffusion v1: 860M UNet dan CLIP ViT-L/14, ukuran checkpoint 4.27GB, berjalan di TPU-v5e
    • Meski model memiliki kapasitas untuk mengingat game ratusan kali, masih banyak ruang untuk optimasi
    • Jika permainan cukup diautomatisasi, game itu bisa direplikasi
  • Peran game engine adalah merender dunia

    • Pesan "Pintu ini membutuhkan kunci biru" tidak memberikan kunci biru kepada pengguna
    • Game engine dapat membuat game baru dan memodifikasi aturan game yang ada secara real-time
    • Model difusi bukan game engine
  • Meskipun kondisi teks tidak diberikan, mungkin saja membuat game baru hanya dengan text prompt

    • Menggunakan RL untuk mempelajari seperti apa tampilan dan cara kerja Doom
    • Akan sulit mensimulasikan game open world dengan status yang tak terbatas