1 poin oleh GN⁺ 2024-10-14 | 1 komentar | Bagikan ke WhatsApp

Gambaran Umum DIAMOND 💎

  • DIAMOND adalah agen reinforcement learning yang dilatih dalam world model berbasis diffusion.
  • Model ini memberi perhatian penting pada detail visual dalam lingkungan game seperti Atari.
  • DIAMOND juga dapat mensimulasikan lingkungan 3D, misalnya CounterStrike: Global Offensive (CSGO).

Latar Belakang dan Motivasi Riset

  • World model adalah pendekatan yang menjanjikan untuk melatih agen reinforcement learning secara aman dan efisien.
  • World model yang ada sebelumnya terutama memodelkan dinamika lingkungan menggunakan urutan variabel laten diskret.
  • Namun, kompresi semacam ini dapat mengabaikan detail visual yang penting bagi reinforcement learning.
  • Model diffusion telah menjadi pendekatan utama dalam generasi gambar.
  • DIAMOND dikembangkan dengan terinspirasi oleh pergeseran paradigma ini.

Performa dan Hasil DIAMOND

  • DIAMOND mencapai skor normalized-to-human rata-rata 1.46 pada benchmark Atari 100k.
  • Ini adalah performa terbaik di antara agen yang dilatih di dalam world model.
  • Kode DIAMOND tersedia secara publik di GitHub.

Cara Kerja DIAMOND

  • Model diffusion dilatih untuk memprediksi frame berikutnya dalam game.
  • Dengan mempertimbangkan aksi agen dan frame sebelumnya, model ini mensimulasikan respons lingkungan.
  • Generasi autoregresif membantu agen mempelajari game.
  • Untuk world model yang cepat, jumlah langkah denoising perlu dikurangi.
  • Model berbasis DDPM tidak stabil pada jumlah langkah denoising yang rendah, tetapi model berbasis EDM tetap stabil.

Pentingnya Detail Visual

  • DIAMOND memodelkan detail visual penting dengan lebih baik.
  • Model ini menangkap detail visual lebih baik dibanding IRIS berbasis token diskret.
  • Pada Atari 100k, performanya 46% lebih baik daripada manusia.

Ringkasan GN⁺

  • DIAMOND menekankan pentingnya detail visual dalam reinforcement learning.
  • Dengan menggunakan model diffusion, detail visual dapat ditangkap dengan lebih baik.
  • Model ini menunjukkan peningkatan performa pada game seperti Atari dan CSGO.
  • Ini bisa menjadi materi yang menarik dan berguna bagi para peneliti di bidang terkait.
  • Proyek dengan fungsi serupa mencakup DreamerV2 dan PlaNet.

1 komentar

 
GN⁺ 2024-10-14
Komentar Hacker News
  • Seorang pengguna menyebutkan bahwa video yang ditautkan sangat mirip dengan mimpinya, dan menjelaskan bahwa ia mengalami hal yang serupa ketika mencoba melompat tinggi dalam mimpi

  • Dijelaskan bahwa model berparameter 300M dilatih selama 12 hari dengan 5M frame menggunakan GTX4090

  • Disebutkan bahwa sebuah perusahaan teknologi besar pernah melakukan pekerjaan serupa pada 2015

  • Disebutkan bahwa pekerjaan berskala industri seperti LLM besar akan sangat mengagumkan

  • Dijelaskan bahwa ini bisa digunakan untuk menghasilkan aproksimasi fisika yang realistis dalam game engine

    • Menggunakan physics engine yang berat untuk menghasilkan cuplikan gameplay lalu melatih model agar mengaproksimasi fisika
    • Mengusulkan bahwa mungkin bisa ada beberapa physics engine yang terspesialisasi
  • Mengajukan pertanyaan kepada orang yang benar-benar sudah mencobanya, apakah mereka membangun peta game, atau justru ini pengalaman halusinatif yang aneh

  • Mengaku memahami konsep dasar stable diffusion, dan bertanya-tanya apakah ada riset yang mencoba ini pada tingkat aset 3D

  • Merasa heran pada orang-orang yang tidak mengenali "noise dari neraka" dalam gambar dan video NN

  • Menyebut pekerjaan yang dilakukan grup Schmidhuber pada 2018 dan membagikan tautannya

  • Menyebut bahwa akan menarik untuk melatih model menggunakan rekaman dunia nyata yang terkait dengan GTA terbaru guna meningkatkan visual game lama

  • Bertanya-tanya apakah ada cara untuk menggabungkannya dengan model bahasa, sambil berargumen bahwa bahasa seharusnya berbasis pada world model

  • Menganggap model bahasa tidak efisien, dan membayangkan sebuah "game" yang dilatih sebagai alat rekayasa struktur

  • Menjelaskan bahwa jaringan ini bisa menjadi bagian yang memahami dunia dan memprediksi tindakan yang berguna atau menjawab pertanyaan

  • Bertanya-tanya bagaimana model ini, dengan loop yang kuat, akan bereaksi saat menggunakan gambar atau peta baru sebagai titik awal