Gambaran Umum DIAMOND 💎
- DIAMOND adalah agen reinforcement learning yang dilatih dalam world model berbasis diffusion.
- Model ini memberi perhatian penting pada detail visual dalam lingkungan game seperti Atari.
- DIAMOND juga dapat mensimulasikan lingkungan 3D, misalnya CounterStrike: Global Offensive (CSGO).
Latar Belakang dan Motivasi Riset
- World model adalah pendekatan yang menjanjikan untuk melatih agen reinforcement learning secara aman dan efisien.
- World model yang ada sebelumnya terutama memodelkan dinamika lingkungan menggunakan urutan variabel laten diskret.
- Namun, kompresi semacam ini dapat mengabaikan detail visual yang penting bagi reinforcement learning.
- Model diffusion telah menjadi pendekatan utama dalam generasi gambar.
- DIAMOND dikembangkan dengan terinspirasi oleh pergeseran paradigma ini.
Performa dan Hasil DIAMOND
- DIAMOND mencapai skor normalized-to-human rata-rata 1.46 pada benchmark Atari 100k.
- Ini adalah performa terbaik di antara agen yang dilatih di dalam world model.
- Kode DIAMOND tersedia secara publik di GitHub.
Cara Kerja DIAMOND
- Model diffusion dilatih untuk memprediksi frame berikutnya dalam game.
- Dengan mempertimbangkan aksi agen dan frame sebelumnya, model ini mensimulasikan respons lingkungan.
- Generasi autoregresif membantu agen mempelajari game.
- Untuk world model yang cepat, jumlah langkah denoising perlu dikurangi.
- Model berbasis DDPM tidak stabil pada jumlah langkah denoising yang rendah, tetapi model berbasis EDM tetap stabil.
Pentingnya Detail Visual
- DIAMOND memodelkan detail visual penting dengan lebih baik.
- Model ini menangkap detail visual lebih baik dibanding IRIS berbasis token diskret.
- Pada Atari 100k, performanya 46% lebih baik daripada manusia.
Ringkasan GN⁺
- DIAMOND menekankan pentingnya detail visual dalam reinforcement learning.
- Dengan menggunakan model diffusion, detail visual dapat ditangkap dengan lebih baik.
- Model ini menunjukkan peningkatan performa pada game seperti Atari dan CSGO.
- Ini bisa menjadi materi yang menarik dan berguna bagi para peneliti di bidang terkait.
- Proyek dengan fungsi serupa mencakup DreamerV2 dan PlaNet.
1 komentar
Komentar Hacker News
Seorang pengguna menyebutkan bahwa video yang ditautkan sangat mirip dengan mimpinya, dan menjelaskan bahwa ia mengalami hal yang serupa ketika mencoba melompat tinggi dalam mimpi
Dijelaskan bahwa model berparameter 300M dilatih selama 12 hari dengan 5M frame menggunakan GTX4090
Disebutkan bahwa sebuah perusahaan teknologi besar pernah melakukan pekerjaan serupa pada 2015
Disebutkan bahwa pekerjaan berskala industri seperti LLM besar akan sangat mengagumkan
Dijelaskan bahwa ini bisa digunakan untuk menghasilkan aproksimasi fisika yang realistis dalam game engine
Mengajukan pertanyaan kepada orang yang benar-benar sudah mencobanya, apakah mereka membangun peta game, atau justru ini pengalaman halusinatif yang aneh
Mengaku memahami konsep dasar stable diffusion, dan bertanya-tanya apakah ada riset yang mencoba ini pada tingkat aset 3D
Merasa heran pada orang-orang yang tidak mengenali "noise dari neraka" dalam gambar dan video NN
Menyebut pekerjaan yang dilakukan grup Schmidhuber pada 2018 dan membagikan tautannya
Menyebut bahwa akan menarik untuk melatih model menggunakan rekaman dunia nyata yang terkait dengan GTA terbaru guna meningkatkan visual game lama
Bertanya-tanya apakah ada cara untuk menggabungkannya dengan model bahasa, sambil berargumen bahwa bahasa seharusnya berbasis pada world model
Menganggap model bahasa tidak efisien, dan membayangkan sebuah "game" yang dilatih sebagai alat rekayasa struktur
Menjelaskan bahwa jaringan ini bisa menjadi bagian yang memahami dunia dan memprediksi tindakan yang berguna atau menjawab pertanyaan
Bertanya-tanya bagaimana model ini, dengan loop yang kuat, akan bereaksi saat menggunakan gambar atau peta baru sebagai titik awal