- Ringkasan catatan persiapan dan slide untuk "Presentasi Upper Bound 2025" oleh John Carmack
- John Carmack kini, setelah melalui Id Software, Oculus, Keen Technologies, dan lainnya, berfokus pada riset AGI berbasis reinforcement learning
- Ia tidak memilih LLM, dan tertarik pada pembelajaran berkelanjutan dan efisien yang belajar dengan berinteraksi dengan lingkungan seperti hewan
- Berdasarkan game klasik Atari, ia membangun sistem RL fisik yang belajar melalui input kamera dan joystick secara real-time
- Ia mengajukan secara luas tantangan teknis yang harus dipecahkan agar sistem RL menjadi lebih mirip dunia nyata, seperti kecepatan, latensi, pembelajaran berkelanjutan, dan pencegahan lupa
- Ia membagikan wawasan tajam berbasis pengalaman tentang arsitektur CNN, representasi reward, dan strategi eksplorasi, sambil mempertanyakan praktik yang ada
Latar Belakang Singkat
- Sebagai pendiri Id Software, Quake ikut mendorong perkembangan GPU dan secara tidak langsung memengaruhi bidang AI
- Di Armadillo Aerospace, ia melakukan riset roket lepas landas dan mendarat vertikal selama 10 tahun
- Di Oculus, ia membangun fondasi teknologi VR modern
- Ia mendirikan Keen Technologies, berfokus pada reinforcement learning dan kini mendedikasikan diri pada riset AI
- Ia juga meneliti bersama Richard Sutton, dan berbagi filosofi tentang reinforcement learning
Ke Mana Saya Mengira Akan Menuju
Bukan LLM
- LLM adalah “pengetahuan tanpa pembelajaran”, sehingga secara filosofi berbeda dari pembelajaran berbasis interaksi yang ia tuju
- Meski kemungkinan LLM menggantikan RL tetap terbuka, ia lebih tertarik pada cara belajar dari lingkungan seperti hewan
Game
- Berkat pengalaman panjang dalam pengembangan game, ia memanfaatkan game sebagai lingkungan eksperimen
- Seperti riset Atari dari DeepMind, ia menguji kemungkinan belajar hanya dari input berbasis piksel
- Namun, jumlah frame pelatihan yang sangat besar dan masalah efisiensi masih menjadi tantangan
- Multi-task, online, dan pembelajaran efisien masih belum terpecahkan
Video
- Awalnya ia mempertimbangkan pembelajaran dari video pasif seperti TV, tetapi kemudian memutuskan untuk berfokus pada pembelajaran dari game itu sendiri
Langkah yang Keliru
- Ia memulai dari level yang terlalu low-level (C++ CUDA), lalu beralih ke PyTorch untuk mempercepat eksperimen
- Alih-alih Atari, ia sempat memulai dari Sega Master System, tetapi beralih karena kurangnya bahan pembanding
- Pembelajaran berbasis video ditunda, karena pembelajaran di dalam game saja sudah memberikan tantangan yang cukup
Menetap dengan Atari
- Keberagaman game komersial membantu mengurangi bias riset
- Disarankan untuk menggunakan ALE secara langsung (wrapper seperti Gym bisa menimbulkan masalah)
- Model terbaru telah mencapai skor tinggi di sebagian besar game, tetapi pembelajaran yang efisien terhadap data seperti “Atari 100k” lebih penting
- Perilaku lingkungan yang deterministik perlu diatasi, misalnya dengan penerapan sticky action
Realitas Bukan Game Berbasis Giliran
- Dunia nyata tidak menunggu agen → perlu mempertimbangkan pemrosesan asinkron dan latensi
- Kegagalan belajar di satu lingkungan mengindikasikan masalah pada algoritme itu sendiri
- Kecepatan: dibutuhkan kebijakan yang bisa dievaluasi dengan cepat (misalnya dengan CUDA graph)
- Latensi: sebagian besar algoritme RL rentan terhadap latensi → dibutuhkan arsitektur yang mencerminkan keterlambatan penerapan kebijakan
Atari Fisik
- Membangun sistem pembelajaran Atari di lingkungan fisik
- Joystick sungguhan, kamera yang melihat layar, dan agen RL bekerja secara real-time
- Saat menguji berbagai game, ia mempertimbangkan masalah dunia nyata seperti pengenalan skor, keterlambatan aksi, dan kesalahan kontrol
- Gerakan joystick tidak stabil, dan pengenalan skor adalah bagian yang paling sulit
- Beberapa game dikeluarkan karena skor sulit terlihat
Reward Jarang / Curiosity
- RL lemah di lingkungan dengan reward yang jarang → memanfaatkan reward intrinsik dan curiosity buatan
- Ia juga mengeksplorasi apakah skor game itu sendiri bisa digunakan sebagai reward
- Ia mencoba mereproduksi pola perilaku manusia seperti berpindah antar-game dan mempertahankan minat pada game baru
Sequential Multi-task Learning
- Masalah lupa dalam pembelajaran berkelanjutan (catastrophic forgetting) masih sangat serius
- Manusia dapat mengingat keterampilan lama, tetapi model saat ini mengalami penurunan performa tajam ketika kembali ke game lama
- Ia mencoba perbaikan melalui pelestarian memori, penyesuaian learning rate, sparsity bobot, dan lain-lain
- Menggunakan Task ID dianggap curang, sehingga perpindahan harus terjadi secara implisit
Transfer Learning
- Belajar dari game yang telah banyak dilatih seharusnya memungkinkan pembelajaran game baru yang lebih cepat
- Sonic challenge dari OpenAI pada akhirnya kembali ke pembelajaran from scratch
- Model seperti GATO mengalami negative transfer
- Bisa jadi dibutuhkan strategi “belajar lambat agar bisa belajar cepat”
- Ia juga mengusulkan benchmark baru: menilai skor sambil mengulang beberapa game secara berurutan
Plasticity vs Generalization
- Generalisasi berarti mengabaikan detail, sedangkan plastisitas berarti mengenali pola baru → keduanya bisa saling bertentangan
- Generalisasi memiliki landasan teori yang lemah, paling jauh pada inductive bias CNN
- Value function dalam reinforcement learning adalah hasil generalisasi, dan sangat sensitif
Eksplorasi
- Keterbatasan pemilihan aksi acak → satu kesalahan saja bisa menentukan hidup-mati
- Ia mencoba menstrukturkan action space dan kebijakan berbasis confidence
- Aksi berbasis satuan waktu juga perlu dipikirkan kembali → pembelajaran pada 60fps sangat sulit
Recurrence vs Frame Stacks
- Di Atari, frame stack efektif, tetapi struktur recurrent lebih mirip otak
- Transformer kuat untuk batch learning, tetapi pembelajaran online recurrent umum masih belum matang
Pembelajaran Berpusat pada Function Approximation
- NN secara bersamaan melakukan estimasi nilai, generalisasi, rata-rata probabilistik, dan perbaikan kebijakan
- Setiap pembaruan bobot memengaruhi semua nilai output
- Kombinasi inisialisasi, fungsi aktivasi, dan optimizer sangat memengaruhi performa
Representasi Nilai
- Reward clamping klasik pada DQN efektif untuk menstabilkan pembelajaran
- Ada berbagai pendekatan seperti representasi categorical, penggunaan MSE, dan kompresi value ala MuZero
- Rentang skor yang berbeda di tiap game menjadi masalah dalam pembelajaran multi-task
Conv Nets
- CNN masih merupakan struktur dasar RL
- Jaringan gambar besar justru menurunkan performa dalam RL (misalnya ConvNeXT)
- Ia bereksperimen dengan perubahan struktur kernel, parameter sharing, dan Isotropic CNN
- Ia mengejar aliran informasi yang efisien melalui DenseNet, Dilated CNN, dan lain-lain
- Ia juga mencoba peningkatan CNN yang menyerupai struktur biologis
1 komentar
Opini Hacker News
Setiap kali melihat ceramah atau tulisan Carmack, selalu terasa menarik. Dalam catatan kali ini juga mengesankan bagaimana ia mencatat proses berpikirnya dengan teliti sebagai seorang engineer. Saya penasaran dengan bagian yang berfokus pada pembelajaran real-time sebagai arah riset. Saya memahaminya sebagai Carmack menjalankan online learning secara real-time. Ini tantangan yang menarik karena bisa memanfaatkan demo keren dan pengalaman optimisasi, tetapi jika melihat pelajaran terbaru dan arus riset saat ini, saya rasa hasilnya bisa mentok bila belum tersedia sumber daya komputasi yang memungkinkan inferensi dan pembelajaran real-time. Otak adalah satu-satunya contoh yang memecahkan game Atari, dan bahkan kemampuan komputasi otak manusia sendiri belum pernah dihitung dengan jelas. Dalam konteks ini, saya sungguh bertanya apakah alih-alih memberi batasan real-time, bukankah lebih baik fokus pada efisiensi pembelajaran. Tentu ada banyak nilai yang didapat saat bekerja di bawah batasan, tetapi laba-laba pelompat pun menjadi contoh yang mampu menyelesaikan masalah kompleks dengan 100 ribu neuron, jadi sulit diprediksi
Pada masa riset awal grafis 3D dan rendering real-time yang dilakukan Carmack di awal 90-an, para pakar offline berbasis workstation mungkin juga berpikir serupa. Kekuatan terbesar Carmack selalu kemampuannya menghasilkan performa ekstrem di bawah sumber daya yang terbatas (id Software, Oculus, Armadillo Aerospace, dan lain-lain). Kesan saya, jika terikat pada organisasi besar atau teknologi yang sudah mapan, justru hasilnya berkurang (saya kira itulah juga alasan ia keluar dari Bethesda-id dan Meta). Saya bisa memahami gaya Carmack yang fokus pada real-time, dan rasanya ia memang tidak terlalu menyukai pendekatan dalam boom AI saat ini yang sekadar menekan semuanya dengan kekuatan komputasi. Syukurlah dia tidak tenggelam melatih LLM dengan uang investor. Idealnya, saya berharap ia menciptakan inovasi dengan cara seperti dulu: bersama rekan-rekan hebat, memopulerkan teknologi canggih ke masyarakat luas (misalnya penyebaran grafis 3D)
Mengutip satu kalimat dari catatan presentasinya, ia menyarankan semacam pemeriksaan fakta: "Jika Anda berpikir AI akan segera menjadi AGI yang memiliki tubuh fisik, cobalah berikan joystick kepada robot humanoid penari Anda dan suruh ia mempelajari video game yang benar-benar belum pernah dilihat sebelumnya"
Saya ingin menekankan bahwa manusia maupun hewan memiliki kemampuan bawaan dan pengetahuan awal yang luar biasa, sehingga strukturnya memang jauh lebih mudah untuk mempelajari hal baru. Ini bukan sekadar perbedaan kapasitas komputasi, melainkan titik awal pembelajarannya sendiri berbeda
Menanggapi pendapat bahwa kapasitas komputasi otak manusia belum jelas, sebenarnya jika mengukur kecepatan transmisi sinyal neuron, ada batas atas pada jumlah neuron yang terhubung secara berurutan (sekitar 100 tahap), dan dari sini bisa diduga bahwa pemrosesan kognitif manusia tidak serumit yang dibayangkan. Tentu ada banyak paralelisme dan feedback loop, tetapi pada akhirnya jika algoritme AGI ditemukan, saya rasa versi ‘mini’ yang bisa berjalan real-time pada hardware biasa tahun 2025 mungkin saja muncul
Kumpulan tautan langsung terkait:
Ada balasan menarik dari orang dalam OpenAI yang ingin saya bagikan: tautan X
Sebenarnya reaksinya tidak terlalu menarik. Sikap samar yang mengabaikan pendapat orang luar adalah pola khas yang berakar pada kecemasan akademik. Tidak ada penjelasan atau dasar yang konkret, jadi tidak membantu diskusi. Kalau pilihannya ‘orang dalam OpenAI’ versus ‘John Carmack dan Richard Sutton’, sudah jelas saya memihak siapa
Carmack menjawab langsung tulisan tersebut: balasan Carmack
Sebagian orang menilai setelah melihat seluruh thread Twitter, sedangkan orang yang tidak login hanya melihat tweet pertama sehingga terasa seperti sekadar pengabaian
Lucu juga bagaimana ia berkata “saya telah mempelajari suatu pelajaran” tetapi tidak memberi tahu pelajaran itu sebenarnya apa
Saat melihat tweet "they will learn the same lesson I did", saya ingin menambahkan candaan: ‘maksudnya jangan percaya Altman?’
Saya benar-benar antusias ketika mendengar Carmack memutuskan fokus ke AI. Saya menunggu videonya diunggah, dan dari slide-nya tampaknya ia membuat sistem yang bisa memainkan game Atari. Menurut saya ini proyek yang menarik, tetapi saya penasaran apakah akan ada paper atau hasil lain
Game Atari digunakan luas sebagai benchmark standar dalam riset RL (reinforcement learning). Referensi: Arcade Learning Environment. Tujuannya adalah mengembangkan algoritme yang bisa digeneralisasi ke beragam tugas
Agen yang bisa menamatkan game Atari atau meraih skor tinggi sudah banyak, tetapi bidang ini masih panjang jalannya. Dalam tesis master saya, saya meneliti cara belajar dengan interaksi yang sedikit, dan jika ini diterapkan ke robot nyata, itu bisa mencegah robot harus berjalan dan jatuh selama ratusan tahun untuk mempelajari perilaku. Masih belum banyak contoh riset tentang generalisasi tingkat lebih tinggi, yaitu mempelajari banyak video game lalu dapat mempelajari game baru secara intuitif
Tujuan proyek ini bukan sekadar ‘menamatkan’ game Atari, melainkan metodologi umum yang bisa diterapkan ke game yang lebih kompleks atau dunia fisik. Namun dari sisi insight riset, saya menilai pada tahap ini lebih efisien menguji dengan memodifikasi lingkungan Atari, misalnya agar berjalan real-time, daripada langsung memasukkan game yang lebih kompleks
Keren bahwa ini rencananya akan dirilis sebagai open source. Bermain secara real-time di laptop GPU dengan controller fisik dan kamera terasa segar, tetapi saya ragu apakah itu sendiri revolusioner. Jika ternyata unggul jauh dibanding riset sebelumnya dari sisi sample efficiency atau generalisasi, itu benar-benar akan mengejutkan
Harapan saya, NPC di game bisa menjadi lebih pintar
Seperti yang muncul di awal slide, ada sedikit penyesalan bahwa riset seperti ini tidak dilakukan di lingkungan VR. Jika ada orang yang mampu mewujudkan filter kamera JPEG, simulasi fisika, noise, sampai lingkungan simulasi robot dengan baik di VR, Carmack adalah orang yang tepat. Menggunakan robot nyata adalah bottleneck yang sangat besar dari sisi waktu pembelajaran
Ini membuat saya berpikir, mengapa AGI harus memiliki tubuh fisik, dan mengapa ketika kita menciptakan kecerdasan unggul kita berharap ia akan menyetir mobil kita dan membersihkan rumah. Justru skenario seperti novel Dan Simmons Hyperion, di mana AGI menghilang ke cloud dan pada dasarnya mengabaikan manusia, terasa lebih realistis
Tidak harus selamanya; manusia pun, jika bisa lepas dari tubuh, mungkin akan ingin melakukannya kapan saja. Terperangkap secara permanen dalam antarmuka fisik punya sisi yang merugikan
Saya juga merasa alasan ini sering muncul di SF karena ada tujuan seperti ‘mencegah AGI menekan tombol daya tubuh saya’
Untuk membahas AGI, saya merasa kita bahkan belum jelas apa itu ‘konsep’. Kita masih belum tahu proses berpikir yang memakai konsep dari satu bidang ke bidang lain, atau bagaimana otak menggabungkan dan mengabstraksikan ide
Sebagai satu contoh pemikiran, jika AGI OpenAI benar-benar sudah dekat, menarik juga bertanya mengapa mereka membuang waktu/biaya untuk mengakuisisi startup hardware yang dijalankan Ive. Mereka bisa saja menantang robotika, atau jika benar AGI-nya terbaik, banyak perusahaan akan berbondong-bondong meminta lisensi hardware/software, dan itu sendiri bisa menghasilkan pendapatan tak terbatas
AGI saja tidak cukup. Bahkan jika AGI dimasukkan ke antarmuka ChatGPT, untuk benar-benar memengaruhi dunia nyata, AGI itu harus hadir ‘di mana-mana’
Jika ada perusahaan yang sedang mendekati pengembangan AGI, besar kemungkinan mereka sengaja tidak mengungkap informasi agar terhindar dari regulasi pemerintah atau militer. Mendahului orang lain dalam AGI membawa risiko besar
Saya ingin mengajukan arah pemikiran bahwa AGI juga bisa sampai pada tahap mendesain produk
Saya pikir riset yang dipilih Carmack itu benar. Kita harus melampaui pembelajaran yang hanya lewat bahasa seperti sekarang. AI membutuhkan fisikalitas
Melatih AI secara serius dengan beragam data di luar bahasa sebenarnya sudah berlangsung sejak beberapa tahun lalu. Frontier model terbaru dilatih secara multimodal dalam satu model yang mencakup teks, audio, video, gambar, dan lain-lain (Gemini, GPT-4o, Grok 3, Claude 3, Llama 4, dan sebagainya). Semua input ditokenisasi dan diproses dalam ruang embedding bersama
Dari sudut pandang bahwa AI membutuhkan fisikalitas, menarik bahwa Carmack sendiri dulu pernah menekankan bahwa lingkungan simulasi lebih cocok untuk pengembangan AI, dan lingkungan fisik secara realistis tidak efisien
Nvidia juga memiliki pandangan yang sama. Jim Fan membahas “physical Turing test” dan masa depan embodied AI. Video ceramah Jim Fan. Di dalamnya juga ditekankan bahwa menjalankan lingkungan simulasi yang kokoh membutuhkan sumber daya komputasi yang sangat besar
Ungkapan "Saya peduli karena saya masih pendatang baru di komunitas riset" terasa seperti memberi isyarat kemungkinan pengajuan paper