AI yang Belajar Melampaui Game hingga Dunia Nyata: Tantangan Reinforcement Learning Berbasis Realitas dari John Carmack

(twitter.com/ID_AA_Carmack)

17 poin oleh GN⁺ 2025-05-24 | 1 komentar | Bagikan ke WhatsApp

Ringkasan catatan persiapan dan slide untuk "Presentasi Upper Bound 2025" oleh John Carmack
John Carmack kini, setelah melalui Id Software, Oculus, Keen Technologies, dan lainnya, berfokus pada riset AGI berbasis reinforcement learning
Ia tidak memilih LLM, dan tertarik pada pembelajaran berkelanjutan dan efisien yang belajar dengan berinteraksi dengan lingkungan seperti hewan
Berdasarkan game klasik Atari, ia membangun sistem RL fisik yang belajar melalui input kamera dan joystick secara real-time
Ia mengajukan secara luas tantangan teknis yang harus dipecahkan agar sistem RL menjadi lebih mirip dunia nyata, seperti kecepatan, latensi, pembelajaran berkelanjutan, dan pencegahan lupa
Ia membagikan wawasan tajam berbasis pengalaman tentang arsitektur CNN, representasi reward, dan strategi eksplorasi, sambil mempertanyakan praktik yang ada

Slide: https://docs.google.com/presentation/d/…
Catatan persiapan: https://docs.google.com/document/d/…

Latar Belakang Singkat

Sebagai pendiri Id Software, Quake ikut mendorong perkembangan GPU dan secara tidak langsung memengaruhi bidang AI
Di Armadillo Aerospace, ia melakukan riset roket lepas landas dan mendarat vertikal selama 10 tahun
Di Oculus, ia membangun fondasi teknologi VR modern
Ia mendirikan Keen Technologies, berfokus pada reinforcement learning dan kini mendedikasikan diri pada riset AI
Ia juga meneliti bersama Richard Sutton, dan berbagi filosofi tentang reinforcement learning

Ke Mana Saya Mengira Akan Menuju

Bukan LLM

LLM adalah “pengetahuan tanpa pembelajaran”, sehingga secara filosofi berbeda dari pembelajaran berbasis interaksi yang ia tuju
Meski kemungkinan LLM menggantikan RL tetap terbuka, ia lebih tertarik pada cara belajar dari lingkungan seperti hewan

Game

Berkat pengalaman panjang dalam pengembangan game, ia memanfaatkan game sebagai lingkungan eksperimen
Seperti riset Atari dari DeepMind, ia menguji kemungkinan belajar hanya dari input berbasis piksel
Namun, jumlah frame pelatihan yang sangat besar dan masalah efisiensi masih menjadi tantangan
Multi-task, online, dan pembelajaran efisien masih belum terpecahkan

Video

Awalnya ia mempertimbangkan pembelajaran dari video pasif seperti TV, tetapi kemudian memutuskan untuk berfokus pada pembelajaran dari game itu sendiri

Langkah yang Keliru

Ia memulai dari level yang terlalu low-level (C++ CUDA), lalu beralih ke PyTorch untuk mempercepat eksperimen
Alih-alih Atari, ia sempat memulai dari Sega Master System, tetapi beralih karena kurangnya bahan pembanding
Pembelajaran berbasis video ditunda, karena pembelajaran di dalam game saja sudah memberikan tantangan yang cukup

Menetap dengan Atari

Keberagaman game komersial membantu mengurangi bias riset
Disarankan untuk menggunakan ALE secara langsung (wrapper seperti Gym bisa menimbulkan masalah)
Model terbaru telah mencapai skor tinggi di sebagian besar game, tetapi pembelajaran yang efisien terhadap data seperti “Atari 100k” lebih penting
Perilaku lingkungan yang deterministik perlu diatasi, misalnya dengan penerapan sticky action

Realitas Bukan Game Berbasis Giliran

Dunia nyata tidak menunggu agen → perlu mempertimbangkan pemrosesan asinkron dan latensi
Kegagalan belajar di satu lingkungan mengindikasikan masalah pada algoritme itu sendiri
Kecepatan: dibutuhkan kebijakan yang bisa dievaluasi dengan cepat (misalnya dengan CUDA graph)
Latensi: sebagian besar algoritme RL rentan terhadap latensi → dibutuhkan arsitektur yang mencerminkan keterlambatan penerapan kebijakan

Atari Fisik

Membangun sistem pembelajaran Atari di lingkungan fisik
Joystick sungguhan, kamera yang melihat layar, dan agen RL bekerja secara real-time
Saat menguji berbagai game, ia mempertimbangkan masalah dunia nyata seperti pengenalan skor, keterlambatan aksi, dan kesalahan kontrol
Gerakan joystick tidak stabil, dan pengenalan skor adalah bagian yang paling sulit
Beberapa game dikeluarkan karena skor sulit terlihat

Reward Jarang / Curiosity

RL lemah di lingkungan dengan reward yang jarang → memanfaatkan reward intrinsik dan curiosity buatan
Ia juga mengeksplorasi apakah skor game itu sendiri bisa digunakan sebagai reward
Ia mencoba mereproduksi pola perilaku manusia seperti berpindah antar-game dan mempertahankan minat pada game baru

Sequential Multi-task Learning

Masalah lupa dalam pembelajaran berkelanjutan (catastrophic forgetting) masih sangat serius
Manusia dapat mengingat keterampilan lama, tetapi model saat ini mengalami penurunan performa tajam ketika kembali ke game lama
Ia mencoba perbaikan melalui pelestarian memori, penyesuaian learning rate, sparsity bobot, dan lain-lain
Menggunakan Task ID dianggap curang, sehingga perpindahan harus terjadi secara implisit

Transfer Learning

Belajar dari game yang telah banyak dilatih seharusnya memungkinkan pembelajaran game baru yang lebih cepat
Sonic challenge dari OpenAI pada akhirnya kembali ke pembelajaran from scratch
Model seperti GATO mengalami negative transfer
Bisa jadi dibutuhkan strategi “belajar lambat agar bisa belajar cepat”
Ia juga mengusulkan benchmark baru: menilai skor sambil mengulang beberapa game secara berurutan

Plasticity vs Generalization

Generalisasi berarti mengabaikan detail, sedangkan plastisitas berarti mengenali pola baru → keduanya bisa saling bertentangan
Generalisasi memiliki landasan teori yang lemah, paling jauh pada inductive bias CNN
Value function dalam reinforcement learning adalah hasil generalisasi, dan sangat sensitif

Eksplorasi

Keterbatasan pemilihan aksi acak → satu kesalahan saja bisa menentukan hidup-mati
Ia mencoba menstrukturkan action space dan kebijakan berbasis confidence
Aksi berbasis satuan waktu juga perlu dipikirkan kembali → pembelajaran pada 60fps sangat sulit

Recurrence vs Frame Stacks

Di Atari, frame stack efektif, tetapi struktur recurrent lebih mirip otak
Transformer kuat untuk batch learning, tetapi pembelajaran online recurrent umum masih belum matang

Pembelajaran Berpusat pada Function Approximation

NN secara bersamaan melakukan estimasi nilai, generalisasi, rata-rata probabilistik, dan perbaikan kebijakan
Setiap pembaruan bobot memengaruhi semua nilai output
Kombinasi inisialisasi, fungsi aktivasi, dan optimizer sangat memengaruhi performa

Representasi Nilai

Reward clamping klasik pada DQN efektif untuk menstabilkan pembelajaran
Ada berbagai pendekatan seperti representasi categorical, penggunaan MSE, dan kompresi value ala MuZero
Rentang skor yang berbeda di tiap game menjadi masalah dalam pembelajaran multi-task

Conv Nets

CNN masih merupakan struktur dasar RL
Jaringan gambar besar justru menurunkan performa dalam RL (misalnya ConvNeXT)
Ia bereksperimen dengan perubahan struktur kernel, parameter sharing, dan Isotropic CNN
Ia mengejar aliran informasi yang efisien melalui DenseNet, Dilated CNN, dan lain-lain
Ia juga mencoba peningkatan CNN yang menyerupai struktur biologis

1 komentar

GN⁺ 2025-05-24

Opini Hacker News

Setiap kali melihat ceramah atau tulisan Carmack, selalu terasa menarik. Dalam catatan kali ini juga mengesankan bagaimana ia mencatat proses berpikirnya dengan teliti sebagai seorang engineer. Saya penasaran dengan bagian yang berfokus pada pembelajaran real-time sebagai arah riset. Saya memahaminya sebagai Carmack menjalankan online learning secara real-time. Ini tantangan yang menarik karena bisa memanfaatkan demo keren dan pengalaman optimisasi, tetapi jika melihat pelajaran terbaru dan arus riset saat ini, saya rasa hasilnya bisa mentok bila belum tersedia sumber daya komputasi yang memungkinkan inferensi dan pembelajaran real-time. Otak adalah satu-satunya contoh yang memecahkan game Atari, dan bahkan kemampuan komputasi otak manusia sendiri belum pernah dihitung dengan jelas. Dalam konteks ini, saya sungguh bertanya apakah alih-alih memberi batasan real-time, bukankah lebih baik fokus pada efisiensi pembelajaran. Tentu ada banyak nilai yang didapat saat bekerja di bawah batasan, tetapi laba-laba pelompat pun menjadi contoh yang mampu menyelesaikan masalah kompleks dengan 100 ribu neuron, jadi sulit diprediksi
- Pada masa riset awal grafis 3D dan rendering real-time yang dilakukan Carmack di awal 90-an, para pakar offline berbasis workstation mungkin juga berpikir serupa. Kekuatan terbesar Carmack selalu kemampuannya menghasilkan performa ekstrem di bawah sumber daya yang terbatas (id Software, Oculus, Armadillo Aerospace, dan lain-lain). Kesan saya, jika terikat pada organisasi besar atau teknologi yang sudah mapan, justru hasilnya berkurang (saya kira itulah juga alasan ia keluar dari Bethesda-id dan Meta). Saya bisa memahami gaya Carmack yang fokus pada real-time, dan rasanya ia memang tidak terlalu menyukai pendekatan dalam boom AI saat ini yang sekadar menekan semuanya dengan kekuatan komputasi. Syukurlah dia tidak tenggelam melatih LLM dengan uang investor. Idealnya, saya berharap ia menciptakan inovasi dengan cara seperti dulu: bersama rekan-rekan hebat, memopulerkan teknologi canggih ke masyarakat luas (misalnya penyebaran grafis 3D)
- Mengutip satu kalimat dari catatan presentasinya, ia menyarankan semacam pemeriksaan fakta: "Jika Anda berpikir AI akan segera menjadi AGI yang memiliki tubuh fisik, cobalah berikan joystick kepada robot humanoid penari Anda dan suruh ia mempelajari video game yang benar-benar belum pernah dilihat sebelumnya"
- Saya ingin menekankan bahwa manusia maupun hewan memiliki kemampuan bawaan dan pengetahuan awal yang luar biasa, sehingga strukturnya memang jauh lebih mudah untuk mempelajari hal baru. Ini bukan sekadar perbedaan kapasitas komputasi, melainkan titik awal pembelajarannya sendiri berbeda
- Menanggapi pendapat bahwa kapasitas komputasi otak manusia belum jelas, sebenarnya jika mengukur kecepatan transmisi sinyal neuron, ada batas atas pada jumlah neuron yang terhubung secara berurutan (sekitar 100 tahap), dan dari sini bisa diduga bahwa pemrosesan kognitif manusia tidak serumit yang dibayangkan. Tentu ada banyak paralelisme dan feedback loop, tetapi pada akhirnya jika algoritme AGI ditemukan, saya rasa versi ‘mini’ yang bisa berjalan real-time pada hardware biasa tahun 2025 mungkin saja muncul
Kumpulan tautan langsung terkait:
- Slide presentasi
- Dokumen teks
Ada balasan menarik dari orang dalam OpenAI yang ingin saya bagikan: tautan X
- Sebenarnya reaksinya tidak terlalu menarik. Sikap samar yang mengabaikan pendapat orang luar adalah pola khas yang berakar pada kecemasan akademik. Tidak ada penjelasan atau dasar yang konkret, jadi tidak membantu diskusi. Kalau pilihannya ‘orang dalam OpenAI’ versus ‘John Carmack dan Richard Sutton’, sudah jelas saya memihak siapa
- Carmack menjawab langsung tulisan tersebut: balasan Carmack
- Sebagian orang menilai setelah melihat seluruh thread Twitter, sedangkan orang yang tidak login hanya melihat tweet pertama sehingga terasa seperti sekadar pengabaian
- Lucu juga bagaimana ia berkata “saya telah mempelajari suatu pelajaran” tetapi tidak memberi tahu pelajaran itu sebenarnya apa
- Saat melihat tweet "they will learn the same lesson I did", saya ingin menambahkan candaan: ‘maksudnya jangan percaya Altman?’
Saya benar-benar antusias ketika mendengar Carmack memutuskan fokus ke AI. Saya menunggu videonya diunggah, dan dari slide-nya tampaknya ia membuat sistem yang bisa memainkan game Atari. Menurut saya ini proyek yang menarik, tetapi saya penasaran apakah akan ada paper atau hasil lain
- Game Atari digunakan luas sebagai benchmark standar dalam riset RL (reinforcement learning). Referensi: Arcade Learning Environment. Tujuannya adalah mengembangkan algoritme yang bisa digeneralisasi ke beragam tugas
- Agen yang bisa menamatkan game Atari atau meraih skor tinggi sudah banyak, tetapi bidang ini masih panjang jalannya. Dalam tesis master saya, saya meneliti cara belajar dengan interaksi yang sedikit, dan jika ini diterapkan ke robot nyata, itu bisa mencegah robot harus berjalan dan jatuh selama ratusan tahun untuk mempelajari perilaku. Masih belum banyak contoh riset tentang generalisasi tingkat lebih tinggi, yaitu mempelajari banyak video game lalu dapat mempelajari game baru secara intuitif
- Tujuan proyek ini bukan sekadar ‘menamatkan’ game Atari, melainkan metodologi umum yang bisa diterapkan ke game yang lebih kompleks atau dunia fisik. Namun dari sisi insight riset, saya menilai pada tahap ini lebih efisien menguji dengan memodifikasi lingkungan Atari, misalnya agar berjalan real-time, daripada langsung memasukkan game yang lebih kompleks
- Keren bahwa ini rencananya akan dirilis sebagai open source. Bermain secara real-time di laptop GPU dengan controller fisik dan kamera terasa segar, tetapi saya ragu apakah itu sendiri revolusioner. Jika ternyata unggul jauh dibanding riset sebelumnya dari sisi sample efficiency atau generalisasi, itu benar-benar akan mengejutkan
- Harapan saya, NPC di game bisa menjadi lebih pintar
Seperti yang muncul di awal slide, ada sedikit penyesalan bahwa riset seperti ini tidak dilakukan di lingkungan VR. Jika ada orang yang mampu mewujudkan filter kamera JPEG, simulasi fisika, noise, sampai lingkungan simulasi robot dengan baik di VR, Carmack adalah orang yang tepat. Menggunakan robot nyata adalah bottleneck yang sangat besar dari sisi waktu pembelajaran
Ini membuat saya berpikir, mengapa AGI harus memiliki tubuh fisik, dan mengapa ketika kita menciptakan kecerdasan unggul kita berharap ia akan menyetir mobil kita dan membersihkan rumah. Justru skenario seperti novel Dan Simmons Hyperion, di mana AGI menghilang ke cloud dan pada dasarnya mengabaikan manusia, terasa lebih realistis
- Tidak harus selamanya; manusia pun, jika bisa lepas dari tubuh, mungkin akan ingin melakukannya kapan saja. Terperangkap secara permanen dalam antarmuka fisik punya sisi yang merugikan
- Saya juga merasa alasan ini sering muncul di SF karena ada tujuan seperti ‘mencegah AGI menekan tombol daya tubuh saya’
Untuk membahas AGI, saya merasa kita bahkan belum jelas apa itu ‘konsep’. Kita masih belum tahu proses berpikir yang memakai konsep dari satu bidang ke bidang lain, atau bagaimana otak menggabungkan dan mengabstraksikan ide
- Jika suatu hal muncul berulang kali, kita memberinya nama, dan konsep adalah pola pikir yang berulang. Abstraksi, relasi, dan metafora semuanya adalah alat untuk memindahkan pola antardomain
Sebagai satu contoh pemikiran, jika AGI OpenAI benar-benar sudah dekat, menarik juga bertanya mengapa mereka membuang waktu/biaya untuk mengakuisisi startup hardware yang dijalankan Ive. Mereka bisa saja menantang robotika, atau jika benar AGI-nya terbaik, banyak perusahaan akan berbondong-bondong meminta lisensi hardware/software, dan itu sendiri bisa menghasilkan pendapatan tak terbatas
- AGI saja tidak cukup. Bahkan jika AGI dimasukkan ke antarmuka ChatGPT, untuk benar-benar memengaruhi dunia nyata, AGI itu harus hadir ‘di mana-mana’
- Jika ada perusahaan yang sedang mendekati pengembangan AGI, besar kemungkinan mereka sengaja tidak mengungkap informasi agar terhindar dari regulasi pemerintah atau militer. Mendahului orang lain dalam AGI membawa risiko besar
- Saya ingin mengajukan arah pemikiran bahwa AGI juga bisa sampai pada tahap mendesain produk
Saya pikir riset yang dipilih Carmack itu benar. Kita harus melampaui pembelajaran yang hanya lewat bahasa seperti sekarang. AI membutuhkan fisikalitas
- Melatih AI secara serius dengan beragam data di luar bahasa sebenarnya sudah berlangsung sejak beberapa tahun lalu. Frontier model terbaru dilatih secara multimodal dalam satu model yang mencakup teks, audio, video, gambar, dan lain-lain (Gemini, GPT-4o, Grok 3, Claude 3, Llama 4, dan sebagainya). Semua input ditokenisasi dan diproses dalam ruang embedding bersama
- Dari sudut pandang bahwa AI membutuhkan fisikalitas, menarik bahwa Carmack sendiri dulu pernah menekankan bahwa lingkungan simulasi lebih cocok untuk pengembangan AI, dan lingkungan fisik secara realistis tidak efisien
- Nvidia juga memiliki pandangan yang sama. Jim Fan membahas “physical Turing test” dan masa depan embodied AI. Video ceramah Jim Fan. Di dalamnya juga ditekankan bahwa menjalankan lingkungan simulasi yang kokoh membutuhkan sumber daya komputasi yang sangat besar
Ungkapan "Saya peduli karena saya masih pendatang baru di komunitas riset" terasa seperti memberi isyarat kemungkinan pengajuan paper
- Ia juga menegaskan bahwa proyek ini adalah upaya untuk riset, bukan perusahaan produk

AI yang Belajar Melampaui Game hingga Dunia Nyata: Tantangan Reinforcement Learning Berbasis Realitas dari John Carmack

Latar Belakang Singkat

Ke Mana Saya Mengira Akan Menuju

Bukan LLM

Game

Video

Langkah yang Keliru

Menetap dengan Atari

Realitas Bukan Game Berbasis Giliran

Atari Fisik

Reward Jarang / Curiosity

Sequential Multi-task Learning

Transfer Learning

Plasticity vs Generalization

Eksplorasi

Recurrence vs Frame Stacks

Pembelajaran Berpusat pada Function Approximation

Representasi Nilai

Conv Nets

Bacaan terkait

1 komentar

Opini Hacker News