Model difusi adalah mesin game real-time
(gamengen.github.io)- GameNGen menghasilkan transisi layar game klasik DOOM hanya dengan model jaringan saraf, sehingga interaksi real-time dimungkinkan tanpa mesin tradisional terpisah
- Berjalan pada lebih dari 20fps di satu TPU, dengan tujuan mempertahankan kualitas visual dan responsivitas bahkan pada lintasan permainan yang panjang
- Prediksi frame berikutnya mencatat PSNR 29.4, dan penilai manusia hanya bisa membedakan klip pendek dari game asli dan simulasi pada tingkat yang sedikit lebih baik dari tebakan acak
- Pelatihan dilakukan berdasarkan catatan aksi dan observasi yang dibuat oleh agen RL, dengan model difusi yang menghasilkan frame berikutnya dari frame masa lalu dan urutan aksi
- Untuk mengurangi drift autoregresif yang terakumulasi selama inferensi, noise Gaussian ditambahkan ke frame konteks saat pelatihan, dan ini berperan penting dalam stabilitas visual jangka panjang
Simulasi DOOM yang berjalan hanya dengan jaringan saraf
- GameNGen adalah mesin game berbasis model jaringan saraf yang memungkinkan interaksi real-time sepanjang lintasan panjang di lingkungan yang kompleks
- Demo tersebut adalah hasil simulasi rekaman real-time orang yang memainkan DOOM hanya dengan model jaringan saraf GameNGen
- Kinerja dan kualitas difokuskan pada upaya mengurangi kemampuan membedakannya dari permainan nyata
- Mensimulasikan DOOM secara interaktif pada lebih dari 20fps di satu TPU
- Prediksi frame berikutnya mencapai PSNR 29.4
- PSNR ini setara dengan kompresi JPEG lossy
- Penilai manusia hanya bisa membedakan klip game pendek dan klip simulasi pada tingkat yang sedikit lebih baik dari tebakan acak
- Materi terkait dapat dilihat di Paper dan Arxiv
Data pelatihan dan susunan model generatif
- Pengumpulan data dilakukan dengan melatih agen RL otomatis, alih-alih mengumpulkan permainan manusia dalam skala besar
- Aksi dan observasi disimpan dari episode pelatihan agen
- Catatan aksi dan observasi yang tersimpan menjadi data pelatihan model generatif
- Model generatif menggunakan kembali model difusi kecil Stable Diffusion v1.4
- Menghasilkan frame berikutnya dengan kondisi urutan aksi sebelumnya dan frame observasi
- Untuk mengurangi drift yang muncul dalam inferensi autoregresif, noise Gaussian ditambahkan ke frame konteks yang telah dienkode saat pelatihan
- Penyuntikan noise ini membuat model mengoreksi informasi yang diambil dari frame sebelumnya, sehingga penting untuk menjaga stabilitas visual dalam jangka waktu lama
- Autoencoder prapelatihan Stable Diffusion v1.4 mengompresi patch piksel 8x8 menjadi 4 kanal laten
- Dalam prediksi frame game, muncul artefak yang terlihat pada detail kecil dan terutama pada bar HUD bagian bawah
- Untuk meningkatkan kualitas gambar, hanya decoder dari autoencoder laten yang dilatih dengan loss MSE terhadap piksel frame target
1 komentar
Komentar Hacker News
Saya terkejut karena model difusi tampaknya memuat lebih banyak sebab-akibat dan urutan daripada yang saya kira
Fakta bahwa Google memakai SD 1.4 sebagai inti model difusi ini juga menjadi pengingat yang bagus bahwa model terbuka berguna bahkan bagi perusahaan raksasa pemegang monopoli cloud
Yang berkesan dari ringkasannya adalah 1) mereka membuat agen memainkan Doom sehingga pada dasarnya memperoleh data pelatihan tak terbatas, 2) mereka menambahkan noise Gaussian ke frame asli lalu memberi reward agar frame berikutnya “dikoreksi” kembali, dan ini menjadi kunci untuk “rendering” yang stabil dalam jangka panjang
Bagian terakhir khususnya menarik karena memberikan intuisi bahwa model diajari koreksi kesalahan dan stabilitas
Saya juga penasaran apakah model ini bisa dilihat seperti “model berbasis Doom”, lalu di-fine-tune dengan gaya fotorealistik atau ray tracing agar lebih mudah mendapatkan rendering yang lebih enak dilihat
Pemain hampir tidak pernah kembali, tetapi ketika karakter benar-benar berbalik dan melihat hal yang sama lagi, tampilannya sudah banyak berubah. Ruangan dengan dinding abu-abu dan papan segitiga sangat mencolok
Ini sesuai dengan perilaku yang diharapkan dari model difusi. Setelah dilatih dengan miliaran frame gameplay, model ini pandai membuat frame “berikutnya” yang masuk akal berdasarkan beberapa frame sebelumnya, tetapi tidak benar-benar memahami secara mendalam batasan game yang logis seperti mengingat struktur level
Konsep seperti sebab-akibat mungkin saja sebagian terenkode dalam bobotnya, tetapi model hanya merender satu frame pada satu waktu. Dari awal ini adalah model teks-ke-gambar, bukan model teks-ke-video
Alih-alih teks, state dan frame sebelumnya dimasukkan sebagai input untuk memprediksi frame berikutnya
Noise ditambahkan ke frame sebelumnya sebelum dimasukkan ke model SD, dan bukan agen reinforcement learning yang “mengoreksi”nya
Tujuan denoising banyak digunakan dalam machine learning, dan secara intuitif memaksa model prediksi memanfaatkan konteks seperti frame atau kata-kata di sekitarnya
Di sini, hal itu membantu mencegah kesalahan kecil akibat keacakan model difusi generatif menumpuk dan menimbulkan drift autoregresif. Pada Figure 4, drift seperti itu terlihat saat pemain berdiri diam
Semacam “bisa membayangkan apa yang mungkin terjadi berikutnya”
Saya ingin menyebutnya kompresi video paling tidak efisien di dunia
Yang benar-benar ingin saya lihat adalah kemampuan prediksi nyata, yaitu imajinasi. Itu tidak terlihat jelas di abstrak
Model ini dilatih dengan set peta klasik; jika diberi beberapa frame gameplay dari peta yang tidak dikenal, apa yang akan dilakukannya? Seberapa baik ia bisa membayangkan kejadian berikutnya?
Makalah ini ditulis oleh empat penulis bersama. Mereka mungkin mendapat sumber daya yang cukup banyak, tetapi tetap harus berbagi dalam pool sumber daya yang dialokasikan untuk divisi riset
Bahkan Google pun hanya punya Gemini dalam beberapa versi saja
Fakta bahwa ini bisa berjalan saja sudah luar biasa sampai terasa tidak masuk akal, dan kemampuan rendering 20fps juga mengagumkan
Karena frame sebelumnya dan aksi harus dienkode lalu dimasukkan ke model di setiap langkah, ini terlihat seperti campuran model difusi dan jaringan saraf rekuren
Secara abstrak, rasanya seperti model bermimpi tentang game yang sudah banyak dimainkannya, sementara input real-time mengubah keadaan mimpi itu
Jadi penasaran apakah manusia juga merupakan mesin prediksi momen berikutnya, hanya saja dengan sedikit lebih banyak memori bawaan
Jika logikanya dibalik dan frame berikutnya dilihat sebagai hipotesis yang diperkirakan muncul sebagai hasil dari frame saat ini, membandingkan “hipotesis” ini dengan indra yang sebenarnya akan lebih mudah untuk memproses perbedaannya daripada memproses seluruh input sensorik
Seperti yang dikatakan Richard Dawkins dalam podcast terbaru[1], gen adalah mesin prediksi yang hebat karena kelangsungan hidup bergantung pada prediksi. Jika melihat besarnya sumber daya yang dipakai untuk penglihatan, kemampuan menghasilkan prediksi visual memang masuk akal
Kalau begitu, apa yang bisa diberitahukan afantasia kepada kita?
[1] https://podcasts.apple.com/dk/podcast/into-the-impossible-wi...
Podcast Lex Fridman “Counterintuitive Ideas About How the Brain Works”[2] layak didengarkan. Ia menjelaskan, antara lain, bahwa otak paling efisien ketika bekerja melalui prediksi berkelanjutan, bukan respons
Ia juga komunikator sains yang hebat, jadi membuat ingin terus mendengarkan
[1] https://en.wikipedia.org/wiki/Lisa_Feldman_Barrett
[2] https://www.youtube.com/watch?v=NbdRIVCBqNI&t=1443s
Tidak jelas bagaimana perbandingannya dengan GPU konsumen kelas atas seperti 3090, tetapi INT8 TFLOPS-nya terlihat mirip. TPU punya memori lebih sedikit (16GB vs 24GB), dan saya tidak begitu tahu spesifikasi lainnya
Tetap saja ada yang terasa tidak pas. SD biasanya butuh setidaknya beberapa detik untuk menghasilkan satu output berkualitas tinggi bahkan di 3090, sedangkan di sini hampir satu orde magnitudo lebih cepat. Ini tampak berarti TPU jauh mengungguli GPU untuk tugas ini
Sepertinya menghasilkan gambar beresolusi rendah (320x240), tetapi tetap terasa terlalu cepat
Rasanya seperti berangkat dari AI lalu menelusuri balik ke atas, dan memaksakan semua kognisi ke dalam kerangka “prediktor sesuatu berikutnya”
Pada akhirnya ini pengulangan perdebatan stochastic parrot
Setelah melihat thread ini, menurut saya perlu ditegaskan bahwa makalah ini tidak menjelaskan sistem yang menerima input pengguna secara real-time lalu mencerminkannya pada output
Namun, saya merasa wording abstraknya sangat mengisyaratkan seolah hal itu terjadi
Mereka melatihnya dengan data skala besar dari agen yang memainkan DOOM dan menyediakan sampel video untuk evaluasi pengguna, tetapi bukan dalam bentuk pengguna memasukkan input ke simulasi secara real-time lalu “memainkan DOOM” sekitar 20FPS
Di dalam makalah ada petunjuk berupa kalimat seperti “pertanyaan inti seperti bagaimana membuat game secara efektif sejak awal, dan bagaimana memanfaatkan input manusia sebaik mungkin masih tersisa”, serta “tujuan akhirnya adalah membuat pemain manusia berinteraksi dengan simulasi”
Yang paling penting, tidak ada bagian yang menjelaskan gameplay pengguna secara real-time
Video di bagian atas https://gamengen.github.io/ juga diawali dengan “ini adalah rekaman real-time orang-orang yang memainkan game”
Melihat klaim-klaim ini, tampaknya pada akhir proyek mereka membuat sistem yang bisa dimainkan dan dapat diberikan kepada manusia. Namun mungkin saja itu belum terjadi saat drafnya diunggah ke arXiv
Tertulis “A adalah himpunan input tombol dan gerakan mouse…” dan “…untuk mengondisikan pada aksi, kami mempelajari embedding A_emb untuk tiap aksi”
Dengan kata lain, proses difusi model ini dikondisikan bukan pada kata, melainkan pada embedding aksi A yang berasal dari tindakan pengguna
Lalu frame awal yang sudah bercampur noise dienkode menjadi representasi laten dan digabungkan sebagai kondisi kedua ke representasi laten ber-noise
Pada akhirnya ini adalah model difusi yang dilatih hanya dengan gambar Doom, lalu menghasilkan frame berikutnya dengan dikondisikan pada frame Doom saat ini dan tindakan pengguna
Jadi pengguna memang benar-benar sedang bermain
Namun fakta bahwa ini mungkin dilakukan bukanlah hal yang mengejutkan. Pada dasarnya ini adalah rekaman neural network dari game tersebut, tetapi tetap demo teknologi yang keren
Tertulis “saat memainkan model secara manual, beberapa area sangat mudah bagi keduanya, beberapa area sangat sulit bagi keduanya, dan di beberapa area agen jauh lebih baik”
Mungkin saya kurang imajinatif, tetapi saya tidak bisa memikirkan tafsir masuk akal lain untuk “memainkan model secara manual”
https://www.youtube.com/watch?v=udPY5rQVoW0
“Playing a Neural Network's version of GTA V: GAN Theft Auto”
“Figure 1: a human player is playing DOOM on GameNGen at 20 FPS.”
Kalimat abstraknya ambigu sehingga banyak kebingungan muncul di sini, tetapi makalahnya jelas pada poin ini
Cukup mengecewakan melihat informasi keliru seperti ini mendapat banyak rekomendasi di forum yang berisi banyak pakar teknis
Upaya untuk menjalankan Doom di segala hal terus berlanjut
Secara teknis, bukankah ini anti-Doom terbesar yang mungkin ada, yaitu Doom dengan kebutuhan hardware tertinggi?
Lucu bahwa jika spesifikasi hardware diletakkan pada sumbu linear, sekarang Doom ada di kedua ujungnya
Dengan kata lain, bukan mem-porting dan menjalankannya tanpa lingkungan hardware/software asli Doom, melainkan menjalankan Doom tanpa Doom itu sendiri
Tahap anti-Doom berikutnya adalah model yang menghasilkan model yang kemudian menghasilkan output Doom
Persyaratan sistem Doom:
RAM 4MB, ruang disk 12MB
Stable Diffusion v1 terdiri dari UNet 860M dan CLIP ViT-L/14 (540M), ukuran checkpoint 4,27GB, EMA penuh 7,7GB
Dijalankan di TPU-v5e; performa komputasi maksimum per chip adalah bf16 197 TFLOPs, Int8 393 TFLOPs, kapasitas dan bandwidth HBM2 masing-masing 16GB dan 819GBps, bandwidth koneksi antarchip 1600Gbps
Mengingat kecepatannya, ini cukup mengesankan, tetapi ruang untuk perbaikan masih sangat besar. Dari sisi kapasitas, seharusnya bisa menghafalnya ratusan kali, tetapi tampaknya game itu tidak sepenuhnya dihafal
Jadi jelas ada banyak ruang untuk metode optimasi. Namun, karena tujuannya di sini adalah penghafalan, tidak tahu bagaimana teknik semacam itu akan berdampak pada teknologi yang sudah ada
Hal yang menarik adalah ini berarti, jika cukup banyak “dimainkan”, diotomatisasi, serta memakai jauh lebih banyak penyimpanan dan komputasi, sebuah game bisa diekstrak
Saya penasaran bagaimana perbandingan biaya dan waktunya dibanding mempekerjakan engineer untuk merekayasa balik Doom. Sejauh mana pengetahuan awal boleh digunakan juga ambigu. Mengingat model pralatih dan lingkungan ViZDoom, saya juga penasaran apakah source Doom ada di T5, dan checkpoint ViT mana yang digunakan
Saya benar-benar ingin melihat checkpoint model ini. Jika orang-orang membongkarnya, sepertinya mereka akan menemukan hal yang sangat menarik
https://www.reddit.com/r/gaming/comments/a4yi5t/original_doo...
https://huggingface.co/CompVis/stable-diffusion-v-1-4-origin...
https://cloud.google.com/tpu/docs/v5e
https://github.com/Farama-Foundation/ViZDoom
https://zdoom.org/index
Dibandingkan game aslinya, biaya komputasinya memang tidak masuk akal, dan benar juga bahwa elemen dasar seperti prakomputasi atau penyimpanan masih kurang
Namun hal-hal seperti itu bisa dianggap dapat diselesaikan di sekitar temuan ini, membaik secara alami seiring waktu, atau menjadi kurang penting sebagai bottleneck
Terobosan sebenarnya adalah kemampuannya memodelkan urutan frame yang sadar konteks seperti itu tanpa meng-encode-nya secara eksplisit. Itu berlaku baik dari sudut pandang game murni maupun dari sudut pandang simulasi secara umum
Makna yang lebih besar adalah bisa menciptakan game dari video dunia nyata
Jika membutuhkan simulator penerbangan yang sempurna, cukup pasang GoPro di setiap kokpit pesawat penumpang selama 1 tahun
Membaca komentar mati di tulisan seperti ini selalu menyenangkan. Saya suka bagaimana mereka menunjukkan betapa tidak berartinya hal itu
Sebagian orang perlu belajar membuat sesuatu hanya demi kesenangan membuatnya
Apakah ini berguna? Sebenarnya tidak terlalu. Apakah ini menarik? Jelas iya
Tidak semua hal harus dibuat demi keuntungan. Tidak juga harus dibuat untuk membuat dunia lebih baik
Kadang tujuannya bisa berupa belajar, tantangan, dan melihat apa yang mungkin
Waktu yang dihabiskan untuk bersenang-senang tidak pernah sia-sia. Saat menjelang ajal nanti, mungkin ada orang-orang yang menyesal karena tidak lebih banyak bersenang-senang
Ucapan “ini benar-benar luar biasa” menyiratkan anggapan bahwa dalam waktu dekat semua software bisa diganti dengan model AI untuk menciptakan pengalaman video game apa pun yang bisa dibayangkan
Realistisnya, ini adalah bentuk Doom paling tidak efisien dan paling tidak andal yang pernah dibuat. Ia secara harfiah memakai komputasi jutaan kali lebih banyak daripada PC x86 awal yang sudah bisa merender dan memainkan Doom secara real-time
Tentu saja, ini tetap semacam atraksi yang menyenangkan
Ada sisi yang sulit dihindari juga. Biaya hidup terus makin mahal, dan romantisasi entrepreneur seperti rockstar mengarah pada pola pikir hustle seperti ini
Namun saya ingat masa ketika ada tulisan tentang kemungkinan “radio internet”. Alih-alih seperti dulu memancarkan gelombang siaran ke udara lalu ribuan radio menyetelnya, sebuah server mengirimkan paket dalam jumlah sangat besar melalui kabel tembaga yang sangat panjang ke ribuan endpoint
Bahkan fakta bahwa endpoint mengirim paket ACK balik ke server malang itu demi menjaga koneksi tampak seperti pemborosan daya komputasi, kabel, dan energi
Namun sekarang kita maraton menonton film Netflix lewat kabel tembaga semacam itu
Saya tidak mengatakan game akan digantikan oleh model difusi yang memimpikan gambar berikutnya berdasarkan input pengguna, tetapi variannya bisa menjadi penciptaan seni interaktif atau bentuk hiburan baru
Mengesankan, tetapi sulit untuk setuju. Model difusi bukanlah game engine
Game engine adalah komponen yang mendorong game sepanjang sumbu waktu. Jadi mirip dengan mesin mobil, dan namanya juga berasal dari situ
Agar sebuah mesin bekerja, ia tidak membutuhkan mobil yang sudah jadi atau jalan untuk dilalui
Hal di atas lebih mirip replikasi interaktif secara dinamis atas apa yang terjadi ketika sebuah mobil diletakkan di jalan tertentu, dan harus diuji jalan sejuta kali dengan kendaraan yang berfungsi
Kalau itu engine, ia seharusnya juga bekerja di medan off-road
Daripada mengatakan dalam bentuk sekarang, “untuk melakukan tugas itu diperlukan mobil yang berfungsi di atas jalan”, lebih tepat mengatakan dalam bentuk lampau, “itu diperlukan untuk melatihnya melakukan tugas tersebut”
Juga tidak jelas mengapa game engine yang memakai konsep yang diperoleh dari cara kerja engine lain menjadi bukan game engine
Kalau melihat model difusi secara umum, sebagaimana model difusi biasanya tidak hanya menghasilkan sesuatu yang persis sama dengan gambar latih, tetapi bisa melakukan interpolasi atau menerapkan konsep individual untuk membuat keluaran baru, tampaknya tidak ada alasan untuk berasumsi bahwa pendekatan ini tidak dapat bekerja di luar “lintasan uji” yang telah dipelajari
Dalam arti tertentu, ini adalah game engine tersimulasi yang dilatih dengan data game engine nyata
Namun jika game engine simulasi yang berfungsi dapat “mendorong game”, menurut saya itu sendiri sudah menjadi game engine. Bagaimana cara mencapainya tidak penting
Di satu sisi manusia membuat kontennya, di sisi lain ia meniru konten game yang sudah ada, tetapi pemain tidak peduli
Bisa dibayangkan “game engine generatif” semacam ini juga dapat pergi off-road. Misalnya dengan mengekstrapolasi apa yang akan terjadi saat mencapai tempat yang belum pernah dilihat
Bahkan kemampuan ekstrapolasi model seperti ini mungkin lebih baik daripada game engine tradisional. Pada game engine biasa, jika kebetulan menembus dinding, layar bisa menjadi kosong, tetapi model ini dapat mengarangnya sambil terus berjalan
Kondisi teks pada model SD memang tidak masuk karena telah dihapus, tetapi dalam waktu dekat bisa dibayangkan membuat game baru yang menarik hanya dengan prompt teks
Untuk mempelajari seperti apa DOOM dan bagaimana ia bekerja, mereka memang harus memakai reinforcement learning, tetapi ini tidak selalu berarti masalah ayam dan telur
Mirip dengan bagaimana LLM dapat menulis cerita baru meskipun hanya dilatih dari teks yang sudah ada
Salah satu tantangan terbesar pendekatan ini mungkin adalah game open-world, dengan jumlah state yang secara praktis tak terbatas
Makalahnya juga mengatakan mereka kesulitan membuat agen reinforcement learning menjelajahi semua sudut DOOM secara penuh
Factorio atau Dwarf Fortress tampaknya belum akan segera disimulasikan. Mungkin
Mungkin bahkan lebih kecil daripada source code itu sendiri. Orang yang berkecimpung di bidang ini mungkin bisa mengoreksi
Pada titik itu, pada dasarnya ia akan “merender” game dengan menginterpolasi source code di ruang laten. Seolah ada seluruh komputer ruang laten yang memiliki engine, aset, tekstur, dan software renderer
Dengan komputer yang cukup kuat, interpolasi ruang laten antara game seperti Factorio dan TF2 juga bisa dibayangkan. Lalu kita dapat menyetel ruang laten ini dengan memberi kondisi pada aspek gameplay yang diinginkan
Masa depan seperti ini akan datang sangat cepat pada sebagian pipeline, seperti tahap akhir rendering. Misalnya DLSS sudah tersedia secara komersial
Suatu hari nanti, ketika semua orang dibaut ke metaverse neural network, pendapatan Nvidia mungkin kembali lagi ke gaming
Saya sangat suka mereka memilih DOOM
Caranya adalah mencurahkan semua upaya hanya pada mekanika game, bukan pada kualitas visual
Saya berharap pendekatan seperti ini lebih baik dalam mengurangi inkonsistensi visual, seperti saat kita menoleh lalu melihat kembali dan monster merah berubah menjadi sekutu biru
Anda bisa mulai dari game platform yang relatif sederhana seperti Mario
Setelah menulis sekitar 300 halaman dan masih baru menjelaskan kira-kira separuhnya, Anda akan mengerti mengapa ini hanyalah harapan optimistis
Mungkin satu orang bisa berbicara dengan model dan membuat sesuatu setara judul AAA masa kini
Bayangkan saja boom side-scroller 2D di Steam, tetapi kali ini berupa game 3D fotorealistis imersif, dengan fisika hiperrealistis (aliran air, api yang menyebar, tornado), serta kemungkinan deformasi dan konstruksi penuh
Modelnya telah dipralatih dengan video dunia nyata, dan game hanyalah semacam “gaya” yang sedikit menyesuaikan prior atas tampilan, latar, dan cerita
Jadi kalau game-nya sudah dibuat, barulah model difusi disebut game engine? Untuk melatih model, game diperlukan. Bukankah ini masalah ayam dan telur?
Kita bisa membuat versi game engine yang tidak real-time, lalu memakai neural network sebagai aproksimasi real-time
Kita juga bisa menyunting video yang direkam di dunia nyata dengan menambahkan hal seperti HUD, lalu melatih neural network untuk mensimulasikan dunia nyata, bukan Doom
Makalah ini memakai 900 juta frame; pada 30fps sepertinya itu sekitar satu tahun video. Perbaikan algoritme mungkin dapat mengurangi kebutuhan pelatihan
Satu tahun video sebenarnya juga bukan jumlah yang terlalu besar. Misalnya, rekrut 500 orang, pasangi GoPro, akselerometer, dan giroskop di kepala serta senjata paintball mereka, lalu minta mereka bermain paintball selama akhir pekan, dan mungkin Anda bisa mendapatkan satu tahun video
Lalu model lain di atasnya tinggal melakukan fine-tuning pada detail untuk menyesuaikan game
Model difusi tidak bisa menjadi game engine. Sebab, game engine harus bisa membuat game baru dan mengubah aturan game yang sudah ada secara real time
Bahkan harus bisa mengubah aturan yang tidak terlihat di layar sekalipun
Alat seperti ini memang menarik, tetapi seperti semua hype AI, perlu ada disclaimer
Alat ini bukan membuat game, melainkan hanya mengambil sampel dari game buatan manusia lalu menghasilkan tampilan frame dan mekanisme bermainnya
“Hanya” menghasilkan? Saya paham bahwa secara mekanis itu bisa saja sederhana, tetapi fakta bahwa ia memampatkan distribusi bersyarat sekaya itu sama sekali tidak terlihat sederhana
Jika dilatih pada banyak game dan menyematkan jauh lebih banyak informasi tentang tiap game, ada kemungkinan kita bisa menentukan prompt yang mendeskripsikan game lalu memainkannya
Dengan begitu, kita bisa mendapatkan manfaat nyata sambil memperbaiki masalah konsistensi