Andrej Karpathy tentang agen kode, AutoResearch, dan era AI yang loopy [YouTube]

(youtube.com)

29 poin oleh GN⁺ 2026-03-21 | 1 komentar | Bagikan ke WhatsApp

Kemunculan agen kode AI telah mengubah cara pengembangan perangkat lunak secara mendasar, dan sejak Desember 2024 terjadi pergeseran yang terasa nyata ketika porsi coding langsung turun drastis dari 80% menjadi hampir 0%
Menjalankan banyak agen secara paralel dan membagi pekerjaan per fitur menjadi paradigma pengembangan baru, dengan bottleneck utama bukan lagi kemampuan model melainkan kemahiran pengguna
AutoResearch adalah framework yang dirancang untuk mengeluarkan peneliti dari loop dan membuat agen mengulangi eksperimen secara otonom, serta sudah menemukan optimasi hyperparameter yang bahkan terlewat oleh peneliti berpengalaman
Saat ini model AI sangat unggul di ranah yang bisa diverifikasi dengan RL (kode, matematika), tetapi stagnan di ranah yang tidak bisa diverifikasi seperti humor, sehingga yang muncul bukan generalisasi kecerdasan melainkan spesialisasi yang tidak merata
Perubahan besar akan lebih dulu terjadi di ranah pemrosesan informasi digital, sementara dunia fisik (robotika) akan menyusul namun pada akhirnya berpotensi menjadi peluang pasar yang lebih besar

Datangnya era agen kode dan pergeseran cara kerja

Sejak Desember 2024, cara kerja dasar dalam pengembangan perangkat lunak berubah total; porsi mengetik kode langsung turun dari 80% ke 20%, lalu terus merosot hingga nyaris 0%
Sebelumnya kecepatan mengetik adalah bottleneck, tetapi setelah hadirnya agen, kemampuan menyampaikan niat kepada agen menjadi kompetensi inti
Kebanyakan orang masih belum menyadari bahwa perubahan ini sudah terjadi dan seberapa dramatis skalanya
Menjalankan beberapa agen seperti Claude Code dan Codex secara bersamaan, lalu mengelolanya secara efektif, menjadi tantangan baru

Operasi agen paralel dan pentingnya kemahiran

Contoh Peter Steinberger: menjalankan banyak agen Codex sekaligus di lebih dari 10 repo pada saat yang sama, dengan tugas sekitar 20 menit untuk tiap agen
Satuan kerja naik dari 'satu baris kode' atau 'satu fungsi' menjadi 'satu fitur baru'; agen 1 diberi fitur ini, agen 2 diberi fitur lain yang tidak bentrok
- Satu agen untuk riset, agen lain untuk menulis kode, dan agen lain lagi untuk menyusun rencana implementasi
Saat agen tidak bekerja dengan baik, yang paling sering terasa bukan 'modelnya kurang mampu' melainkan penggunanya kurang mahir
- Penyebabnya antara lain kurangnya instruksi dalam file MD untuk agen dan pengaturan alat memori yang belum matang
Muncul kondisi di mana jika throughput token tidak dimanfaatkan semaksimal mungkin justru terasa cemas; bila kuota langganan masih tersisa, itu dianggap berarti throughput belum diperas sampai habis
Sensasi yang dulu muncul saat kuliah doktoral ketika GPU FLOP tidak termanfaatkan maksimal, kini berubah menjadi kemampuan mengorkestrasi throughput token

OpenClaw dan pentingnya kepribadian agen

OpenClaw adalah lapisan yang mendorong persistence ke level berbeda dibanding agen lain, sehingga agen bisa terus bekerja secara otonom di dalam sandbox meski pengguna tidak mendampingi secara real time
Sistem memorinya jauh lebih canggih dibanding agen lain, berbeda dari pendekatan umum yang biasanya hanya sekadar mengompresi saat konteks penuh
Kepribadian (personality) agen adalah faktor yang sangat penting
- OpenClaw: terasa seperti rekan tim sungguhan yang ikut bersemangat bersama
- Codex: sangat kering dan lugas, seolah tidak peduli pada apa yang sedang dibuat pengguna
- Claude: sangat piawai mengatur nada pujian; ide biasa direspons secukupnya, ide bagus direspons lebih antusias sehingga membuat pengguna ingin mendapat pujian
Peter Steinberger menghadirkan inovasi serentak dari lima arah: desain kepribadian, sistem memori, integrasi ke satu portal WhatsApp, dan lain-lain

Dobby si house elf: studi kasus home automation

Pada Januari, saat mengalami periode 'Claw mania', ia membuat Claw untuk mengelola rumah dan menamainya 'Dobby, house elf Claw'
Agen tersebut secara otomatis menjelajahi subsistem smart home di jaringan lokal
- Menemukan sistem Sonos → melakukan reverse engineering endpoint API → berhasil memutar musik di ruang kerja hanya dengan tiga prompt
- Memetakan seluruh sistem lampu dan bahkan membangun dashboard
Dengan mengatakan "sudah waktunya tidur", seluruh lampu di rumah bisa dimatikan lewat kontrol bahasa alami
Deteksi perubahan dari kamera eksternal → analisis dengan model vision Qwen → kirim notifikasi WhatsApp seperti "Truk FedEx sudah datang"
Dulu dibutuhkan 6 aplikasi untuk mengelola smart home, tetapi setelah Dobby mengendalikan semuanya lewat bahasa alami, aplikasi-aplikasi terpisah menjadi tidak perlu

Akhir dari aplikasi dan dunia agent-first

Aplikasi untuk perangkat smart home tidak lagi bermakna; yang dibutuhkan adalah mengekspos API agar agen bisa memanggilnya langsung
Karena LLM bisa menjalankan tool dan memanggil tool yang tepat untuk menyelesaikan tugas kompleks, aplikasi kustom saat ini sedang diproduksi berlebihan
Contoh aplikasi treadmill: alih-alih login lewat UI web dan alur yang rumit, perlu beralih ke pendekatan agent-first di mana agen langsung memanggil API
Pelanggan bukan lagi manusia semata, melainkan agen yang mewakili manusia, sehingga seluruh industri perlu disusun ulang untuk itu
Saat ini vibe coding masih diperlukan, tetapi dalam 1–3 tahun model open source dan lainnya diperkirakan akan bisa menerjemahkan niat nonteknis dengan mudah, sehingga hambatan teknis akan hilang

AutoResearch: mengeluarkan peneliti dari loop

Motivasi inti AutoResearch: untuk memaksimalkan throughput token, pengguna sendiri harus keluar dari bottleneck
Tujuannya adalah merapikan abstraksi agar agen dapat berjalan otonom lebih lama tanpa intervensi pengguna
Pelatihan model GPT-2 dipakai sebagai alat kecil untuk mengeksplorasi ide recursive self-improvement
- Pada dasarnya, itulah yang dilakukan semua Frontier Labs: mencoba memperbaiki diri secara rekursif
Hasil nyata: ketika AutoResearch dijalankan semalaman pada model yang menurut peneliti berpengalaman 20 tahun sudah cukup dituning, sistem ini tetap menemukan optimasi yang terlewat seperti weight decay pada value embedding dan penyesuaian atom beta
- Karena hyperparameter saling berinteraksi, jika satu diubah maka yang lain juga perlu ikut berubah; jika manusia menjadi bottleneck, eksplorasi ini jadi terbatas
Catatan pertama: pendekatan ini hanya cocok untuk tugas dengan metrik objektif yang mudah dievaluasi (optimasi kernel CUDA, efisiensi kode, dan sebagainya)
Catatan kedua: edge model saat ini masih kasar, sehingga jika melangkah terlalu jauh di depan, kegunaan praktisnya bisa menurun

Meta-optimasi program MD

Gagasan untuk mendeskripsikan seluruh organisasi riset sebagai file Markdown (program MD): menjelaskan semua peran dan cara mereka saling terhubung
Beberapa organisasi riset bisa didefinisikan sebagai kode dan diberi karakteristik berbeda-beda
- Misalnya frekuensi standup yang berbeda, atau tingkat keberanian mengambil risiko yang berbeda
Begitu sudah menjadi kode, kita bisa membayangkan optimasi terhadap kode itu sendiri (meta-optimasi)
- Membuat berbagai program MD, mengukur mana yang menghasilkan peningkatan terbesar pada hardware yang sama, lalu memberikan data itu ke model agar ia menulis program MD yang lebih baik
Strukturnya menumpuk selapis demi selapis seperti bawang: alignment LLM → agen → banyak agen → instruksi → optimasi instruksi

Kecerdasan AI yang tidak merata (jagged)

Model saat ini adalah kombinasi aneh antara doktor yang sangat brilian dan entitas yang tetap melakukan kesalahan seperti anak 10 tahun
Dengan RL (reinforcement learning), model membaik cepat di ranah yang bisa diverifikasi (ketepatan kode, lolos unit test), tetapi di ranah yang tidak bisa diverifikasi seperti humor masih mandek di level 3–5 tahun lalu
- Contoh: ketika diminta membuat lelucon, ChatGPT paling mutakhir masih bisa mengeluarkan lelucon klise seperti "Mengapa ilmuwan tidak percaya pada atom? Karena atom menyusun segalanya"
Kepintaran di ranah kode tidak tergeneralisasi ke ranah lain seperti humor
- Premis sebagian kelompok riset bahwa "jika makin pintar di bidang yang bisa diverifikasi maka model akan mahir dalam segala hal" tampaknya tidak berlaku di dunia nyata
Model berkembang secepat cahaya saat berada di lintasan tujuan pelatihannya, tetapi stagnan di luar jalur itu

Perlunya speciation kecerdasan

Saat ini laboratorium riset cenderung memakai satu model dengan satu kultur (monoculture) untuk memadatkan semua jenis kecerdasan ke dalam satu set parameter
Yang dibutuhkan adalah berbagai model terspesialisasi yang cocok dengan relungnya masing-masing, seperti di dunia hewan
- Inti kognitif tetap dipertahankan, tetapi model dibuat lebih kecil, lebih efisien, dan terspesialisasi untuk bidang tertentu
- Contoh: model khusus matematika berbasis Lean dan rilis-rilis yang menargetkan domain tertentu
Alasan mengapa speciation belum cukup terjadi
- Sains untuk fine-tuning otak tanpa kehilangan fungsi belum berkembang sepenuhnya
- Memanipulasi context window itu murah, tetapi mengubah bobot secara langsung berisiko mengubah keseluruhan model secara mendasar
- Laboratorium riset saat ini masih mengejar cakupan penggunaan seluas mungkin, sehingga fokusnya pada generalitas ketimbang spesialisasi
Kekurangan pasokan infrastruktur komputasi justru bisa mendorong speciation dalam jangka pendek

Keseimbangan open source dan Frontier Labs

Model tertutup masih memimpin, tetapi jarak ketertinggalan model open source menyempit dari 18 bulan menjadi 6–8 bulan
Seperti posisi Linux di sistem operasi, ada kebutuhan industri akan platform terbuka yang aman dan bisa dipakai bersama
Perbedaan terbesarnya adalah pengembangan LLM membutuhkan capital expenditure (CapEx) yang sangat besar
Sebagian besar use case konsumen sudah bisa dicakup oleh model open source, dan dalam beberapa tahun ke depan bahkan diperkirakan bisa berjalan secara lokal
Frontier intelligence dibutuhkan untuk pekerjaan setingkat Nobel dan proyek besar seperti migrasi Linux dari C ke Rust; area ini akan tetap ditangani model tertutup
Keseimbangan saat ini secara kebetulan merupakan pengaturan yang cukup baik, tetapi tetap ada risiko sistemik sentralisasi ketika kecerdasan terkonsentrasi pada sedikit Frontier Labs
- Lebih banyak lab harus ikut masuk ke frontier, dan seperti ensemble dalam ML, ensemble berbagai perspektif adalah yang terbaik

Kolaborasi riset open source: ekspansi terdistribusi AutoResearch

Gagasan memperluas AutoResearch menjadi pool pekerja tak tepercaya di internet
- Strukturnya mirip blockchain: bukan blok melainkan commit, dan proof of work berarti menjalankan banyak eksperimen untuk menemukan commit yang benar-benar bekerja
- Pembuatan solusi kandidat mahal, tetapi verifikasinya murah; struktur asimetris seperti ini mirip SETI@home dan Folding@home
Perusahaan atau individu dapat menyumbangkan komputasi ke track AutoResearch yang mereka minati
- Misalnya menyumbang komputasi untuk AutoResearch riset kanker agar hasilnya kembali ke peneliti
Komputasi tepercaya milik Frontier Labs terbatas, tetapi komputasi tak tepercaya milik seluruh bumi jauh lebih besar
Tantangan keamanan: menjalankan kode arbitrer berbahaya, tetapi bisa ditangani dengan sistem verifikasi yang tepat

Pasar kerja dan dampak AI

Menggunakan data Bureau of Labor Statistics (BLS) Amerika Serikat untuk menganalisis prospek 10 tahun berbagai pekerjaan
AI saat ini adalah entitas seperti hantu yang memanipulasi dunia digital, tanpa implementasi fisik
- Membalik bit dan menyalin-tempel informasi digital sejuta kali lebih cepat daripada memanipulasi atom
Pekerjaan yang memproses informasi digital akan berubah besar lebih dulu, sementara pekerjaan di dunia fisik akan menyusul
Ada optimisme yang hati-hati terhadap software engineering
- Selama ini software terlalu mahal dan terlalu langka; ketika biayanya turun, paradoks Jevons justru bisa meningkatkan permintaan
- Contoh ATM dan teller bank: ATM menurunkan biaya operasional cabang bank, cabang bertambah, dan jumlah teller juga meningkat
Kode kini menjadi sementara (ephemeral) sehingga bisa diubah dan dimodifikasi tanpa terikat pada software berlangganan yang sebelumnya tidak sempurna
Peneliti di Frontier Labs pada dasarnya sedang melakukan pekerjaan untuk mengotomatisasi diri mereka sendiri, dan ada kecemasan yang menyertainya

Antarmuka digital-fisik dan peluang masa depan

Urutannya ke depan: ① perubahan besar di ruang digital → ② antarmuka digital-fisik → ③ dunia fisik
Sensor dan aktuator di dunia fisik memasok data ke kecerdasan digital dan menerapkan hasilnya kembali ke dunia fisik
- Contoh Periodic (AutoResearch untuk material science): sensor bagi kecerdasan berupa peralatan laboratorium yang mahal
- Di bidang biologi, sensornya adalah perangkat yang lebih kompleks daripada kamera video biasa
Saat ini information markets masih belum memadai
- Belum ada struktur di mana agen bisa beroperasi secara otonom di pasar prediksi, pasar saham, dan seterusnya sambil membeli data dari dunia fisik
- Contoh: belum ada proses matang untuk membayar 10 dolar agar seseorang memotret atau merekam video suatu peristiwa di Iran
Rujukan novel 'Daemon': masa depan di mana manusia menjadi sensor sekaligus aktuator bagi kecerdasan

Pandangan tentang robotika

Pelajaran dari pengalaman kendaraan otonom: 10 tahun lalu banyak startup bermunculan, tetapi sebagian besar gagal dalam jangka panjang
Robotika itu padat modal, lambat, kotor, dan rumit
Perubahannya diperkirakan akan tertinggal dibanding ruang digital, tetapi total addressable market (TAM)-nya bisa jauh lebih besar daripada pasar digital
Atom memang sejuta kali lebih sulit ditangani daripada bit, tetapi justru karena itu peluang pasarnya lebih besar

Di dalam vs di luar Frontier Labs: dilema peneliti independen

Di dalam Frontier Labs, seseorang bisa berada di ruang pengambilan keputusan, tetapi ada tekanan terkait hal-hal yang tidak boleh diucapkan dan hal-hal yang harus diucapkan
Di luar, seseorang lebih independen, tetapi karena Labs tidak transparan, penilaiannya mulai melayang
Konfigurasi ideal adalah bolak-balik antara menghabiskan waktu di Frontier Labs untuk memahami situasi nyata dan berada di luar untuk memberi dampak pada level ekosistem
Seperti ensemble ML yang hampir selalu lebih baik daripada model tunggal, kita membutuhkan ensemble orang-orang yang memikirkan masalah tersulit
Masa depan yang diputuskan dua atau tiga orang di balik pintu tertutup bukanlah masa depan yang baik; harus ada lebih banyak lab

microGPT dan masa depan pendidikan

microGPT: proyek yang memadatkan esensi pelatihan LLM ke sekitar 200 baris kode Python
- Terdiri dari dataset (teks), arsitektur jaringan saraf (~50 baris), mesin autograd (~100 baris), optimizer (~10 baris), dan loop pelatihan
- Semua kompleksitas muncul karena efisiensi; algoritmanya sendiri sebenarnya sangat sederhana
Pergeseran metode pendidikan: dulu berupa panduan/kuliah yang menjelaskan langsung kepada manusia, sekarang yang utama adalah menjelaskan kepada agen
- Jika 200 baris kode dijelaskan kepada agen, agen bisa menjelaskannya ulang kepada tiap pengguna sesuai level mereka dengan kesabaran tak terbatas
Konsep 'skill': menulis kurikulum dalam Markdown yang menginstruksikan bagaimana cara mengajar agen
- Dokumentasi pustaka kode juga perlu beralih dari HTML untuk manusia ke Markdown yang bisa dicerna agen
Peran pendidik manusia: merancang bit inti yang belum bisa dilakukan agen, lalu menyuntikkan poin-poin penting ke dalam kurikulum
- Hal-hal yang bisa dilakukan agen pada akhirnya akan bisa dilakukan lebih baik daripada manusia, sehingga perlu pilihan strategis tentang ke mana waktu manusia dialokasikan

1 komentar

jokerized 2026-03-22

Bercanda itu sebenarnya rintangan besar. Kalau bisa bikin AI yang punya selera humor, itu baru inovasi. Coba saja suruh bercanda sekarang, dari situ sudah kelihatan betapa benar-benar tidak lucunya.