Andrej Karpathy – AGI Masih 10 Tahun Lagi
(dwarkesh.com)- Andrej Karpathy berpendapat bahwa ini bukan "tahun agent" melainkan "dekade agent", membantah prediksi berlebihan di industri AI dan memperkirakan diperlukan sekitar 10 tahun perbaikan bertahap
- LLM saat ini masih kekurangan fungsi kognitif inti seperti pembelajaran berkelanjutan, kemampuan multimodal, dan kemampuan menggunakan komputer, dan diperkirakan butuh sekitar 10 tahun untuk menyelesaikan masalah-masalah ini
- Berbeda dengan perangkat keras bawaan yang diberikan evolusi kepada hewan, LLM adalah semacam "entitas mirip jiwa" yang meniru data internet; ini adalah jenis kecerdasan yang berbeda, sehingga perbandingan langsung dengan hewan tidak tepat
- RL (reinforcement learning) sangat tidak efisien, sementara metode alternatif juga belum cukup berkembang. Karena masalah model collapse dan pelupaan pada LLM, ada batasan untuk terus menyerap atau mengembangkan pengetahuan secara alami seperti otak manusia
- Pre-training adalah "evolusi yang buruk", yakni proses mengompresi 15 triliun token secara drastis ke dalam miliaran parameter sehingga hanya menyisakan ingatan samar atas dokumen internet
- AGI pada akhirnya akan tetap berada dalam lintasan pertumbuhan PDB 2% yang biasa, dan harus dilihat sebagai ekspansi komputasi yang bertahap, bukan lompatan diskontinu (termasuk perdebatan soal superintelligence)
Waktu kedatangan AGI dan laju perkembangan AI
- Andrej Karpathy menekankan bahwa "era agent AI bukanlah tahun ini, melainkan proses berskala 10 tahun".
- Saat ini berbagai agent AI seperti Claude dan Codex memang sudah digunakan secara berguna, tetapi masih kurang dalam pembelajaran berkelanjutan, pemrosesan multimodal, dan pemanfaatan komputer yang kompleks
- Agar AGI benar-benar dapat berfungsi seperti karyawan manusia atau intern, tantangan seperti peningkatan kecerdasan, memori berkelanjutan, dan penguasaan banyak kemampuan harus diselesaikan
- Mengenai prediksi perkembangan industri AI, berdasarkan lebih dari sekitar 15 tahun pengalaman di lapangan, Karpathy memperkirakan bahwa tantangan-tantangan sulit ini mungkin dapat diatasi, tetapi karena sangat sulit, kira-kira akan butuh 10 tahun
Pergeseran arah dalam riset AI awal
- Deep learning sebelum AlexNet adalah topik niche, tetapi pada 2012 AlexNet menjadi pergeseran besar pertama yang mengarahkan ulang seluruh bidang ke pelatihan jaringan saraf
- Sekitar 2013, deep reinforcement learning untuk Atari adalah arah yang keliru, dan pendekatan awal OpenAI yang berpusat pada game juga merupakan kesalahan
- Ia skeptis terhadap gagasan bahwa game akan mengarah ke AGI, dan menilai interaksi dengan dunia nyata diperlukan
- Proyek Universe milik OpenAI terlalu dini dan reward-nya terlalu jarang sehingga tidak mungkin dipelajari
- Agent di atas LLM adalah jalur yang benar; representasi harus diperoleh terlebih dahulu sebelum membangun agent
- Pendekatan saat ini untuk melatih agent penggunaan komputer di atas large language model dinilai masuk akal
- Melalui pre-training dan pekerjaan pada LLM, representasi harus didapat lebih dulu agar tugas agent menjadi mungkin
- Secara keseluruhan, bidang AI berevolusi mengikuti alur perceptron/neural net → agent (RL) → LLM/penguatan pembelajaran representasi
Perbedaan pembelajaran manusia dan evolusi hewan
- Hewan (misalnya zebra) memiliki perilaku kompleks yang tertanam secara genetik melalui evolusi; riset AI tidak meniru proses evolusi yang sebenarnya dan lebih banyak menggunakan pembelajaran imitasi melalui materi internet (pre-training)
- LLM saat ini secara struktural berbeda dari organisme yang muncul melalui evolusi. Makhluk hidup terlahir dengan perangkat keras (jaringan saraf), sedangkan AI digambarkan lebih mirip "hantu" berbasis perangkat lunak
- Kemiripan antara otak manusia dan AI sebaiknya hanya dijadikan acuan secara terbatas, dan pendekatan yang berpusat pada tujuan praktis (kegunaan) lebih realistis
Pembelajaran dalam konteks vs pre-training
- Pre-training adalah hasil kompresi informasi internet dalam jumlah sangat besar, sehingga pengetahuan yang diingat model bersifat samar dan parsial
- Informasi untuk pertanyaan nyata lebih dimanfaatkan secara langsung dalam context window layaknya "memori kerja"
- Pembelajaran dalam konteks adalah bentuk samar dari memori kerja, sedangkan pre-training adalah bentuk samar dari memori jangka panjang
- Semua yang ada di KV cache adalah memori kerja yang dapat diakses langsung oleh jaringan saraf
- Semua yang ada di bobot adalah ingatan samar atas sesuatu yang dibaca setahun lalu
- Ada kemungkinan pembelajaran dalam konteks mengimplementasikan gradient descent secara internal
- Dalam riset regresi linear, ditemukan kemiripan antara bobot jaringan saraf dan mekanisme gradient descent
- Dengan mempelajari penyelesaian pola, sirkuit kecil dan algoritme di-boot di dalam jaringan saraf
- 0,07 bit per token pada pre-training vs 320 kilobyte per token pada pembelajaran dalam konteks
- Pembelajaran dalam konteks memiliki tingkat asimilasi informasi per token 35 juta kali lebih tinggi
- Perbedaan rasio kompresi yang dramatis ini mencerminkan perbedaan mendasar dalam cara belajar
Perbedaan kognitif antara manusia dan LLM
- Tidak adanya bagian otak seperti hipokampus dan amigdala
- Transformer setara dengan jaringan korteks dan memiliki kemampuan penalaran seperti korteks prefrontal
- Bagian otak penting seperti hipokampus (memori) dan amigdala (emosi) tidak direplikasi
- Tidak adanya mekanisme pembelajaran berkelanjutan
- Pada manusia, informasi konteks harian (context window) melalui proses seperti tidur akan didistilasi ke dalam bobot internal
- LLM memulai ulang dengan 0 token setiap sesi dan tidak memiliki tahap distilasi. Artinya, tidak ada mekanisme memori jangka panjang/pembelajaran berkelanjutan yang serupa
- Reinforcement learning itu "mengerikan"
- Semua token dari rollout yang menghasilkan jawaban benar diberi bobot naik, meski penuh noise
- Seluruh trajektori dinilai hanya dari reward akhir, seperti "menyedot supervisi melalui sedotan"
- Manusia menilai tiap bagian melalui proses peninjauan yang kompleks, tetapi LLM tidak punya padanannya
Batasan supervisi berbasis proses
- Kemungkinan gameability pada hakim LLM
- Jika LLM digunakan untuk alokasi reward, penemuan contoh adversarial hampir pasti terjadi
- Pernah ada kasus keluaran omong kosong seperti "dhdhdhdh" tetap memperoleh reward 100%
- Kerapuhan pada wilayah generalisasi out-of-sample
- Untuk input yang belum pernah dilihat saat pelatihan, hakim LLM bisa memberi skor ekstrem
- Ini dapat diperbaiki lewat pelatihan berulang, tetapi ada contoh adversarial tak terbatas pada model 1 triliun parameter
- Kebutuhan akan data sintetis dan review
- Sedang dicoba pendekatan meta-learning melalui peninjauan jawaban dan pembuatan contoh sintetis
- Pada skala lab riset frontier LLM, belum ada metode yang benar-benar meyakinkan dan bekerja dengan generalitas penuh
Pembelajaran manusia vs pembelajaran LLM
- Manusia hampir tidak menggunakan reinforcement learning
- Sebagian besar reinforcement learning dipakai untuk tugas motorik seperti melempar bola ke ring basket
- Untuk tugas intelektual seperti pemecahan masalah, manusia tidak menggunakan RL
- Membaca buku adalah prompt untuk menghasilkan data sintetis
- Manusia membaca buku, memanipulasi informasi, lalu memperoleh pengetahuan
- LLM hanya membentangkan urutan teks dan belajar lewat prediksi token berikutnya
- Masalah model collapse
- Sampel LLM secara individual tampak masuk akal, tetapi distribusinya diam-diam runtuh
- ChatGPT hanya mengulang 3 lelucon saja (tanpa keseluruhan spektrum lelucon yang mungkin)
- Manusia juga mengalami keruntuhan seiring waktu, tetapi anak-anak yang belum overfit masih bisa melontarkan hal mengejutkan
Keseimbangan antara hafalan dan generalisasi
- LLM sangat hebat dalam menghafal
- Bahkan urutan acak sepenuhnya pun bisa dilafalkan utuh setelah satu atau dua kali pengulangan
- Manusia tidak bisa melafalkan urutan angka acak seperti itu
- Kemampuan menghafal adalah fitur, bukan bug
- Manusia dipaksa hanya mempelajari komponen yang dapat digeneralisasi
- LLM terdistraksi oleh ingatan atas dokumen pre-training
- Pengetahuan perlu dihapus dari inti kognitif
- Inti kognitif diperkirakan berukuran sekitar 1 miliar parameter
- Pengetahuan dihapus, sementara hanya algoritme dan strategi yang dipertahankan
- Ini bisa diselesaikan dengan kurasi set pre-training dan distilasi ke model yang lebih kecil
Arah perbaikan ke depan dan prospek teknis
- Dalam 10 tahun ke depan, diperkirakan semua bidang harus berkembang bersamaan—termasuk arsitektur, optimizer, fungsi loss, data, perangkat lunak, dan perangkat keras—agar menghasilkan kemajuan yang bermakna
- Struktur Transformer dan pendekatan deep learning saat ini kemungkinan akan tetap bertahan sebagian, tetapi sparse attention, daya komputasi yang diperluas, dan data berskala besar diperkirakan akan ditambahkan
- Ia merasa bahwa hingga sekarang pun, perbaikan bersama di banyak bagian lebih penting daripada satu faktor tunggal tertentu
Cacat kognitif LLM dan penggunaan alat coding
- LLM sering dipakai untuk membantu coding, tetapi untuk penulisan kode intensif yang membutuhkan desain dan pendekatan khas, keterbatasannya masih banyak
- Umumnya tiga pendekatan dipakai secara campuran: (1) menulis sepenuhnya manual, (2) memanfaatkan autocomplete, dan (3) pendekatan "agent"
- LLM cocok untuk base code yang repetitif atau memiliki banyak contoh baik, tetapi pada kode yang orisinal dan sangat bergantung pada struktur, masalah seperti terpaku pada gaya lama, bertambahnya kompleksitas yang tidak perlu, dan salah paham terhadap konvensi menjadi menonjol
- Sebagai contoh nyata, meski tidak ingin menggunakan container PyTorch DDP, LLM terus merekomendasikannya sehingga mengganggu gaya penulisan kode dan cara implementasi yang diinginkan
Pengalaman mengembangkan nanochat
- LLM tidak cocok untuk codebase yang unik
- Hanya berguna untuk kode boilerplate dan hal-hal yang sering muncul di internet
- nanochat padat secara intelektual dan membutuhkan susunan yang presisi sehingga model terus salah memahaminya
- Autocomplete adalah cara penggunaan yang optimal
- vibe coding hanya bekerja dalam pengaturan tertentu
- autocomplete memberi bandwidth informasi tinggi hanya dari beberapa huruf awal
- Berguna untuk mempelajari bahasa baru seperti Rust
- Jika memiliki implementasi referensi Python dan pengujian, vibe coding bisa dilakukan dengan aman
- Meningkatkan aksesibilitas terhadap bahasa atau paradigma yang belum familier
Realitas otomatisasi AI engineering
- Model saat ini belum memadai untuk mengotomatisasi riset AI
- Karena coding berbasis teks, ini adalah kecocokan pertama yang sempurna untuk LLM
- Tidak terlalu bagus untuk kode yang belum pernah ditulis sebelumnya
- Kesenjangan demo-produk
- Demo kendaraan otonom sudah ada sejak 1980-an, tetapi butuh waktu lama untuk menjadi produk
- "deretan angka 9" — setiap angka 9 berarti sejumlah pekerjaan tertentu, perlu peningkatan berkelanjutan dari 90% ke 99,999%
- Ledakan kecerdasan tidak akan terlihat di kurva GDP
- Teknologi transformatif seperti komputer dan iPhone pun tidak bisa ditemukan di GDP
- Semua hal terlalu tersebar dan menyebar perlahan sehingga dirata-ratakan ke eksponen 2% yang sama
Pelajaran dari kendaraan otonom
- Kendaraan otonom belum selesai
- Waymo pun hanya memiliki sangat sedikit kendaraan dan operasinya tidak ekonomis
- Manusia di pusat teleoperasi tetap berada dalam loop
- Kesamaan domain ambang keselamatan
- Dalam software engineering pun biaya kesalahan tinggi, misalnya kerentanan keamanan
- Dibutuhkan "deretan angka 9" seperti pada kendaraan otonom
- Pendekatan Tesla yang bisa diskalakan
- Waymo memulai lebih awal dengan banyak sensor
- Tesla lebih unggul dalam jangka panjang dengan strategi yang lebih scalable
Perbandingan kendaraan otonom vs AI untuk pekerjaan pengetahuan
- Ranah bit sejuta kali lebih mudah daripada dunia fisik
- Bit dapat diubah dan disusun ulang dengan cepat
- Adaptasi industri diperkirakan akan jauh lebih cepat
- Perbedaan belanja modal
- Kendaraan otonom membutuhkan mobil baru sepenuhnya untuk setiap salinan
- Model AI dapat menyediakan instans tambahan hanya dengan biaya inferensi
- Kompleksitas penerimaan sosial
- Aspek hukum, asuransi, dan regulasi perlu diselesaikan
- AI juga akan punya padanan orang yang menaruh kerucut di atas mobil Waymo
Visi Eureka Labs
- Membangun Starfleet Academy
- Lembaga pendidikan elite untuk teknologi frontier
- Menyediakan pengetahuan teknologi terbaru, termasuk AI
- Setelah AGI, pendidikan menjadi hiburan
- Sebelum AGI: pendidikan berguna untuk mencari uang
- Setelah AGI: pendidikan rekreatif, seperti pergi ke gym atau sekolah
- Menunggu AI tutor yang sempurna
- Pengalaman dengan tutor pribadi bahasa Korea menjadi standar acuannya
- Memahami tingkat pemahaman siswa, memberi tantangan yang tepat, dan menyampaikan informasi dengan sempurna
- Belum mungkin dengan kemampuan saat ini, tetapi akan mungkin di masa depan
Prinsip perancangan materi pendidikan
- Pola pikir fisikawan
- Memahami sistem dalam suku orde pertama, kedua, dan ketiga
- Membangun model dan abstraksi
- Nilai dari asumsi "sapi bulat"
- Tunjukkan rasa sakit dulu, lalu berikan solusinya
- Beri siswa kesempatan mencoba terlebih dahulu
- Beri motivasi dengan prompt sebelum memberikan solusi
- Contoh micrograd
- Menunjukkan inti backpropagation dalam 100 baris
- Sisanya hanyalah efisiensi
- Semuanya hanya penerapan rekursif dari chain rule
Strategi belajar yang efektif
- Dahulukan kedalaman, belajar sesuai kebutuhan
- Belajar sambil mendapat imbalan melalui proyek tertentu
- Bergantian dengan pembelajaran luas ala sekolah
- Menjelaskan kepada orang lain
- Memaksa kita menemukan dan menutup celah pemahaman
- Memanipulasi pengetahuan untuk memahami lebih dalam
- Percakapan saat makan siang > paper
- Tiga kalimat yang didengar sambil minum bir di konferensi bisa lebih jelas daripada paper
> Saya suka menjelaskan sesuatu lagi, dan orang lain juga seharusnya begitu. Karena dengan begitu Anda harus memanipulasi pengetahuan, dan saat menjelaskan Anda harus benar-benar paham apa yang sedang Anda katakan.
# [Skrip lengkap]
00:00:00 – AGI masih setidaknya 10 tahun lagi
Dwarkesh Patel 00:00:00
Hari ini saya berbincang dengan Andrej Karpathy. Andrej, mengapa Anda mengatakan bahwa ini bukan "tahun para agen", melainkan "dekade para agen"?
Andrej Karpathy 00:00:07
Pertama-tama, terima kasih telah mengundang saya. Saya senang bisa hadir di sini.
Ungkapan "dekade para agen" yang baru saja Anda sebut itu sebenarnya adalah respons terhadap istilah yang sudah lebih dulu beredar. Saya tidak tahu pasti siapa yang mengatakannya, tetapi ada ungkapan yang menyiratkan bahwa tahun ini akan menjadi "tahun para agen" sehubungan dengan evolusi LLM. Saya terpicu oleh ungkapan itu, karena menurut saya ada terlalu banyak prediksi berlebihan di industri ini. Menurut saya, menyebutnya sebagai "dekade para agen" jauh lebih akurat.
Kita sudah memiliki agen tahap awal yang sangat mengesankan, dan saya sendiri menggunakan Claude atau Codex setiap hari. Tetapi saya tetap merasa masih ada sangat banyak pekerjaan yang harus dilakukan. Saya rasa kita akan bekerja bersama hal-hal ini selama 10 tahun ke depan. Mereka akan makin baik, dan akan menjadi hebat. Saya hanya sedang merespons garis waktu implisit seperti itu.
Dwarkesh Patel 00:00:58
Apa yang membuat Anda berpikir bahwa ini akan memakan waktu 10 tahun? Di mana bottleneck-nya?
Andrej Karpathy 00:01:02
Membuatnya benar-benar berfungsi. Saat kita berbicara tentang agen, yang dibayangkan lab AI, dan mungkin juga yang saya bayangkan, adalah sesuatu seperti karyawan atau intern yang akan Anda pekerjakan untuk bekerja bersama Anda. Misalnya, Anda juga bekerja bersama staf di sini. Kapan Anda ingin agen seperti Claude atau Codex melakukan pekerjaan itu?
Untuk saat ini, tentu saja itu belum mungkin. Apa yang dibutuhkan agar menjadi mungkin? Mengapa kita belum menggunakannya hari ini? Alasannya sederhana. Karena mereka tidak bekerja dengan baik. Mereka belum cukup cerdas, belum cukup multimodal, dan tidak bisa melakukan hal-hal seperti menggunakan komputer.
Mereka tidak bisa melakukan banyak hal yang Anda sebutkan sebelumnya. Mereka tidak punya kemampuan continual learning. Jika Anda memberi tahu mereka sesuatu, Anda tidak bisa berharap mereka akan mengingatnya. Ada banyak kekurangan kognitif dan mereka belum berfungsi dengan baik. Menyelesaikan semua masalah ini akan memakan waktu sekitar 10 tahun.
Dwarkesh Patel 00:01:44
Menarik. Sebagai podcaster profesional dan seseorang yang mengamati AI dari kejauhan, mudah untuk melihat apa yang kurang. Misalnya tidak adanya continual learning, atau kurangnya kemampuan multimodal. Tetapi saya tidak punya cara yang baik untuk memberi garis waktu pada hal-hal itu. Jika seseorang bertanya berapa lama continual learning akan memakan waktu, saya sama sekali tidak punya intuisi apakah ini proyek yang butuh 5 tahun, 10 tahun, atau 50 tahun. Mengapa 10 tahun? Mengapa bukan 1 tahun atau 50 tahun?
Andrej Karpathy 00:02:16
Di sini saya masuk ke intuisi pribadi saya, dan membuat penalaran berdasarkan pengalaman lapangan. Saya sudah hampir 20 tahun berada di bidang AI. Mungkin sekitar 15 tahun. Tidak selama itu juga. Richard Sutton yang pernah hadir di sini sudah jauh lebih lama. Saya punya sekitar 15 tahun pengalaman, dan selama itu saya melihat orang-orang membuat prediksi, lalu menyaksikan bagaimana prediksi itu terwujud. Saya juga pernah cukup lama berada di industri, lalu di riset, lalu kembali ke industri. Dari pengalaman-pengalaman itu, ada intuisi umum yang tersisa.
Perasaan saya adalah bahwa masalah-masalah ini bisa diselesaikan, bisa diatasi, tetapi tetap sulit. Jika dipikir secara rata-rata, bagi saya rasanya memang sekitar 10 tahun.
Dwarkesh Patel 00:02:57
Sangat menarik. Bukan hanya sejarahnya, saya juga ingin mendengar apa yang dirasakan orang-orang yang berada di sana pada saat berbagai terobosan terjadi tentang apa yang akan terjadi. Dalam hal apa prediksi mereka terlalu pesimistis atau terlalu optimistis? Mari kita bahas satu per satu.
Andrej Karpathy 00:03:16
Itu pertanyaan yang sangat besar. Karena kita sedang membicarakan hal-hal yang terjadi selama 15 tahun. AI adalah bidang yang benar-benar luar biasa. Ada beberapa perubahan besar yang mirip pergeseran tektonik, ketika seluruh bidang ini tiba-tiba terlihat sepenuhnya berbeda. Saya mungkin mengalami dua atau tiga di antaranya secara langsung. Dan saya rasa hal-hal seperti itu akan terus terjadi ke depannya. Hampir datang dengan keteraturan yang mengejutkan.
Ketika karier saya dimulai, ketika saya mulai mengerjakan deep learning, alasan saya tertarik pada deep learning adalah karena kebetulan saya berada tepat di sebelah Geoff Hinton di University of Toronto. Geoff Hinton tentu saja sosok seperti bapak baptis AI. Dia melatih jaringan-jaringan saraf seperti ini, dan saya merasa itu menakjubkan dan menarik. Tapi ini sama sekali bukan hal utama yang dilakukan semua orang di AI pada waktu itu. Itu cuma topik kecil yang sangat niche di satu sudut. Mungkin pergeseran tektonik dramatis pertama datang bersama AlexNet.
AlexNet mengubah arah semua orang, dan semua orang mulai melatih jaringan saraf. Tapi pendekatannya masih per tugas, per tugas yang spesifik. Anda punya image classifier, atau neural machine translator, semacam itu. Orang-orang mulai perlahan tertarik pada agen. Mereka mulai berpikir, "Oke, korteks visual kurang lebih sudah kita centang, tapi bagaimana dengan bagian otak lainnya, dan bagaimana kita mendapatkan agen penuh atau entitas penuh yang bisa berinteraksi dengan dunia?"
Perubahan deep reinforcement learning Atari sekitar 2013, menurut saya, adalah bagian dari upaya awal menuju agen. Karena itu adalah upaya untuk membuat agen yang bukan hanya memahami dunia, tetapi juga mengambil tindakan, berinteraksi, dan menerima reward dari lingkungan. Saat itu lingkungannya adalah game Atari.
Saya merasa itu adalah arah yang salah. Bahkan arah yang salah yang diadopsi OpenAI pada masa awal ketika saya terlibat. Karena zeitgeist pada saat itu adalah lingkungan reinforcement learning, game, gameplay, memenangkan game, mendapatkan berbagai macam game, dan OpenAI juga banyak melakukan hal seperti itu. Semua itu sedikit merupakan kekeliruan. Mungkin selama 2, 3, 4 tahun, semua orang menerapkan reinforcement learning ke game, dan semuanya sedikit bergerak ke arah yang salah.
Yang saya coba lakukan di OpenAI—saya selalu agak skeptis bahwa game akan mengarah ke AGI. Menurut saya, Anda menginginkan sesuatu seperti akuntan, sesuatu yang berinteraksi dengan dunia nyata. Saya tidak bisa memahami bagaimana game akan mengarah ke sana. Misalnya, proyek saya di OpenAI, dalam cakupan proyek Universe, adalah tentang agen yang memanipulasi halaman web menggunakan keyboard dan mouse. Saya benar-benar ingin membuat sesuatu yang bisa berinteraksi dengan dunia digital nyata dan melakukan knowledge work.
Tapi ternyata ini terlalu dini, terlalu, terlalu dini, sampai-sampai kami seharusnya belum mengerjakannya. Karena kalau Anda hanya meraba-raba, menekan keyboard sembarangan dan mengklik mouse sambil mencoba mendapatkan reward di lingkungan seperti ini, reward-nya terlalu jarang sehingga pembelajaran tidak terjadi. Anda membakar komputasi dalam jumlah besar, tapi tidak pernah menghasilkan apa pun. Yang hilang saat itu adalah representasi dalam jaringan saraf.
Misalnya, hari ini orang melatih computer-use agent, tapi mereka melakukannya di atas large language model. Anda harus mendapatkan language model terlebih dahulu, Anda harus mendapatkan representasi terlebih dahulu, dan itu dilakukan melalui pretraining serta semua pekerjaan terkait LLM.
Perasaan saya, secara kasar, adalah bahwa orang-orang beberapa kali terus mencoba mendapatkan sistem yang lengkap terlalu dini. Saya ingin mengatakan bahwa orang-orang mencoba mengejar agen terlalu cepat. Atari dan Universe, bahkan pengalaman saya sendiri, seperti itu. Sebenarnya ada hal-hal yang harus dilakukan terlebih dahulu sebelum sampai pada agen. Sekarang agen jauh lebih mampu, tetapi mungkin kita masih kehilangan sebagian dari stack itu.
Saya ingin mengatakan bahwa ini adalah tiga kategori utama yang dikerjakan orang: melatih jaringan saraf per tugas, mencoba putaran pertama agen, lalu mengejar representasi jaringan saraf sebelum menambahkan LLM dan semua hal lain di atasnya.
Dwarkesh Patel 00:07:02
Menarik. Kalau saya membela pandangan Sutton dengan lebih kuat, manusia bisa menyerap semuanya sekaligus, bukan? Atau bahkan hewan juga bisa menyerap semuanya sekaligus. Mungkin hewan adalah contoh yang lebih baik, karena mereka bahkan tidak punya kerangka bahasa. Mereka begitu saja dilempar ke dunia dan harus memahami semuanya tanpa label apa pun.
Kalau begitu, bukankah visi untuk AGI seharusnya melihat data sensorik, melihat layar komputer, lalu memahami apa yang sedang terjadi dari nol? Jika manusia ditempatkan dalam situasi serupa dan harus dilatih dari nol... ini seperti manusia tumbuh besar, atau hewan tumbuh besar. Alih-alih melakukan pelatihan selama jutaan tahun, kenapa itu tidak bisa menjadi visi untuk AI?
Andrej Karpathy 00:07:41
Pertanyaan yang sangat bagus. Sutton pernah hadir di podcast Anda dan saya juga menontonnya, lalu menulis tentang bagaimana saya memikirkannya. Saya sangat berhati-hati dalam membuat analogi dengan hewan. Karena hewan berasal dari proses optimisasi yang sangat berbeda. Hewan berevolusi, dan mereka datang dengan sejumlah besar hardware yang sudah tertanam.
Sebagai contoh, dalam tulisan saya, contohnya adalah zebra. Zebra lahir, dan beberapa menit kemudian ia berlari-lari dan mengikuti induknya. Itu hal yang sangat kompleks. Itu bukan reinforcement learning. Itu sudah tertanam. Evolusi jelas punya cara untuk mengenkode bobot jaringan saraf kita dalam ATCG, dan saya tidak tahu bagaimana cara kerjanya, tapi jelas itu bekerja.
Otak muncul dari proses yang sangat berbeda, dan saya sangat ragu untuk mengambil inspirasi dari sana. Karena kita sebenarnya tidak menjalankan proses itu. Dalam tulisan saya, saya mengatakan bahwa kita tidak sedang membuat hewan. Kita sedang membuat semacam hantu atau roh. Apa pun sebutan orang untuk itu, kita tidak melatih lewat evolusi. Kita melatih dengan meniru manusia dan lewat data yang mereka unggah ke internet.
Pada akhirnya, jadilah entitas-entitas yang semacam spiritual ini. Sepenuhnya digital dan meniru manusia. Ini jenis kecerdasan yang berbeda. Jika Anda membayangkan ruang kecerdasan, kita hampir memulai dari titik yang berbeda. Kita sebenarnya tidak sedang membuat hewan. Tapi seiring waktu, saya rasa mungkin saja, dan memang seharusnya, kita membuat mereka sedikit lebih mirip hewan.
Satu hal lagi yang ingin saya katakan adalah, menurut saya Sutton sangat... kerangkanya adalah "kita ingin membuat hewan." Saya rasa itu akan luar biasa jika bisa dibuat berhasil. Itu akan benar-benar menakjubkan. Jika ada satu algoritme tunggal yang bisa dijalankan di internet dan mempelajari semuanya, itu akan luar biasa. Saya tidak yakin itu ada, dan jelas bukan itu yang dilakukan hewan. Hewan punya loop eksternal berupa evolusi.
Banyak hal yang tampak seperti pembelajaran sebenarnya lebih dekat ke pematangan otak daripada pembelajaran. Saya rasa pada hewan ada sangat sedikit reinforcement learning. Sebagian besar reinforcement learning adalah hal-hal seperti tugas motorik. Bukan tugas kecerdasan. Jadi sebenarnya saya rasa manusia hampir tidak menggunakan RL, secara kasar.
Dwarkesh Patel 00:09:52
Bisa Anda ulangi kalimat terakhir itu? Maksud Anda banyak dari bagian kecerdasan itu bukan tugas motorik, melainkan... apa tadi?
Andrej Karpathy 00:09:54
Dari sudut pandang saya, banyak reinforcement learning lebih berkaitan dengan hal-hal yang jauh lebih motorik, tugas-tugas sederhana seperti melempar bola ke ring basket. Tapi saya tidak merasa manusia menggunakan reinforcement learning untuk banyak tugas kecerdasan seperti pemecahan masalah. Bukan berarti kita tidak boleh menelitinya, tapi saya rasa itulah tepatnya yang dilakukan atau tidak dilakukan hewan.
Dwarkesh Patel 00:10:17
Perlu waktu untuk mencerna ini. Karena ada banyak ide di dalamnya. Saya akan ajukan satu pertanyaan klarifikasi untuk memahami sudut pandangnya. Anda tadi menyiratkan bahwa evolusi melakukan hal yang sama seperti pretraining, dalam arti membangun sesuatu yang bisa memahami dunia.
Perbedaannya adalah evolusi, dalam kasus manusia, harus diatur melalui DNA sebesar 3 gigabyte. Itu sangat berbeda dari bobot model. Secara harfiah, bobot model adalah otaknya, dan itu jelas tidak ada di sperma dan sel telur. Jadi itu harus tumbuh. Selain itu, informasi tentang semua sinaps di otak tidak mungkin begitu saja termuat di dalam 3 gigabyte DNA.
Evolusi tampaknya lebih mirip dengan menemukan algoritme yang melakukan pembelajaran seumur hidup. Tentu saja pembelajaran seumur hidup mungkin tidak mirip dengan RL seperti yang Anda tunjukkan. Apakah ini selaras dengan yang Anda katakan, atau Anda tidak setuju?
Andrej Karpathy 00:11:17
Saya rasa begitu. Saya jelas setuju bahwa ada kompresi yang luar biasa yang terjadi. Jelas bobot jaringan saraf tidak disimpan di ATCG. Ada kompresi yang dramatis. Yang dikodekan adalah algoritme pembelajaran yang mengambil alih sebagian pembelajaran secara online. Dalam hal itu saya jelas setuju. Saya ingin mengatakan bahwa pola pikir saya jauh lebih praktis. Saya tidak mendekatinya dari sudut pandang mari kita membuat hewan. Saya mendekatinya dari sudut pandang mari kita membuat sesuatu yang berguna. Saya memakai helm keselamatan, dan saya hanya mengamati bahwa kita tidak akan melakukan evolusi. Kita tidak tahu caranya.
Tetapi ternyata dengan meniru dokumen internet, kita bisa membuat entitas seperti hantu, seperti jiwa ini. Ini berhasil. Ini adalah versi yang layak secara praktis untuk mengangkat Anda menuju sesuatu dengan banyak pengetahuan dan kecerdasan bawaan, yang dalam beberapa hal mirip dengan apa yang dilakukan evolusi. Jadi saya menyebut pra-pelatihan sebagai evolusi murahan ini. Ini adalah versi yang layak secara praktis dengan teknologi kita dan apa yang bisa kita gunakan, untuk mencapai titik awal tempat kita bisa melakukan hal-hal seperti reinforcement learning.
Dwarkesh Patel 00:12:15
Untuk membela sudut pandang lain, setelah melakukan wawancara Sutton ini dan memikirkannya, menurut saya dia punya poin penting di sini. Evolusi sebenarnya tidak memberi kita pengetahuan. Ia memberi kita algoritme untuk menemukan pengetahuan. Dan itu tampaknya berbeda dari pra-pelatihan.
Mungkin sudut pandangnya adalah bahwa pra-pelatihan membantu membangun jenis entitas yang bisa belajar lebih baik. Ia mengajarkan meta-learning, jadi itu mirip dengan menemukan algoritme. Tetapi jika kita mengatakan, “evolusi memberi kita pengetahuan, pra-pelatihan memberi kita pengetahuan,” analogi itu tampaknya runtuh.
Andrej Karpathy 00:12:42
Itu hal yang subtil, dan saya rasa Anda benar untuk mendorong balik soal itu, tetapi pada dasarnya yang dilakukan pra-pelatihan adalah mengambil prediktor token berikutnya atas internet, lalu melatihnya menjadi jaringan saraf. Ia melakukan dua hal yang berbeda. Pertama, ia memperoleh semua hal yang saya sebut sebagai pengetahuan ini. Kedua, ia benar-benar menjadi cerdas.
Dengan mengamati pola algoritmik di internet, ia mem-boot semua sirkuit kecil dan algoritme ini di dalam jaringan saraf untuk melakukan hal-hal seperti in-context learning. Pengetahuan itu bahkan tidak diperlukan atau diinginkan. Menurut saya, itu mungkin justru mengganggu jaringan saraf secara keseluruhan, karena kadang membuatnya terlalu bergantung pada pengetahuan.
Misalnya, satu hal yang tidak dilakukan agen dengan baik adalah keluar dari manifold data yang ada di internet. Jika mereka memiliki lebih sedikit pengetahuan atau memori, mereka mungkin akan lebih baik. Saya rasa salah satu hal yang perlu dilakukan ke depan—dan ini akan menjadi bagian dari paradigma riset—adalah mencari cara untuk menghapus sebagian pengetahuan dan mempertahankan apa yang saya sebut cognitive core. Itu adalah entitas cerdas yang terlepas dari pengetahuan, tetapi mencakup algoritme, kecerdasan, dan keajaiban pemecahan masalah beserta strateginya.
Dwarkesh Patel 00:13:50
Ada banyak hal yang sangat menarik di sana. Mari mulai dari in-context learning. Ini poin yang jelas, tetapi saya rasa layak untuk diucapkan secara eksplisit dan direnungkan. Situasi ketika model-model ini tampak paling cerdas—momen ketika saya berbicara dengan mereka dan merasa, “wah, benar-benar ada sesuatu di seberang sana yang sedang merespons saya,” semua hal ketika mereka membuat kesalahan lalu berkata, “oh tunggu, itu cara berpikir yang salah. Mari mundur,” semuanya terjadi di dalam konteks. Di situlah kecerdasan sejati yang bisa Anda lihat dengan mata berada.
Proses in-context learning dikembangkan oleh gradient descent pada pra-pelatihan. Ia melakukan meta-learning terhadap in-context learning secara spontan, tetapi in-context learning itu sendiri bukan gradient descent. Sama seperti pada manusia, kecerdasan seumur hidup kita yang mampu menyelesaikan pekerjaan dikondisikan oleh evolusi, tetapi pembelajaran kita sepanjang hidup terjadi melalui proses yang berbeda.
Andrej Karpathy 00:14:42
Saya tidak sepenuhnya setuju, tetapi lanjutkan dulu pemikiran Anda.
Dwarkesh Patel 00:14:44
Yah, saya ingin memahami bagaimana analogi itu runtuh.
Andrej Karpathy 00:14:48
Saya ragu untuk mengatakan bahwa in-context learning tidak melakukan gradient descent. Ia tidak melakukan gradient descent secara eksplisit. In-context learning adalah pelengkapan pola di dalam jendela token. Ternyata ada sejumlah besar pola di internet. Anda benar. Model belajar melengkapi pola, dan itu ada di dalam bobotnya. Bobot jaringan saraf mencoba menemukan pola dan melengkapi pola. Ada adaptasi yang terjadi di dalam jaringan saraf, yang ajaib dan begitu saja muncul dari internet. Karena ada banyak pola.
Izinkan saya katakan bahwa ada makalah yang menarik yang melihat mekanisme di balik in-context learning. Saya rasa ada kemungkinan bahwa in-context learning menjalankan loop gradient descent kecil di dalam layer jaringan saraf. Satu makalah yang khususnya saya ingat melakukan regresi linear menggunakan in-context learning. Input ke jaringan saraf adalah pasangan XY. XY, XY, XY berada pada satu garis. Lalu Anda beri X dan mengharapkan Y. Jaringan saraf, ketika dilatih seperti ini, melakukan regresi linear.
Biasanya saat Anda menjalankan regresi linear, ada optimizer gradient descent kecil yang melihat XY, melihat error, menghitung gradien bobot, lalu melakukan beberapa pembaruan. Ketika mereka melihat bobot dari algoritme in-context learning itu, ternyata mereka menemukan beberapa kemiripan dengan mekanisme gradient descent. Sebenarnya, saya rasa makalah itu lebih kuat dari itu: mereka melakukan hardcode pada bobot jaringan saraf agar, melalui attention dan seluruh bagian internal jaringan saraf, ia melakukan gradient descent.
Itu satu-satunya sanggahan saya. Tidak ada yang tahu bagaimana in-context learning bekerja, tetapi mungkin secara internal ia melakukan semacam gradient descent yang aneh. Saya rasa itu mungkin. Saya hanya menyanggah pernyataan Anda bahwa ia tidak melakukan in-context learning. Tidak ada yang tahu ia sedang melakukan apa, tetapi mungkin ia melakukan sesuatu yang mirip dengan itu. Namun kita tidak tahu.
Dwarkesh Patel 00:16:39
Kalau begitu, jika in-context learning dan pra-pelatihan sama-sama mengimplementasikan sesuatu yang mirip gradient descent, mengapa rasanya di in-context learning kita sampai pada pembelajaran berkelanjutan semacam ini, seperti kecerdasan yang nyata? Sementara hanya dengan pra-pelatihan saja kita tidak mendapatkan perasaan yang serupa. Anda bisa membuat argumen itu.
Kalau algoritmenya sama, apa yang bisa berbeda? Salah satu cara memikirkannya adalah berapa banyak informasi yang disimpan model untuk setiap informasi yang diterimanya selama pelatihan. Jika melihat pra-pelatihan, misalnya Llama 3, saya rasa model itu dilatih dengan 15 triliun token. Jika melihat model 70B, itu akan setara dengan 0,07 bit per token yang dilihat selama pra-pelatihan. Maksudnya, dalam hal token yang dibaca dibandingkan dengan informasi yang ada di bobot model. Sementara itu, kalau melihat KV cache dan seberapa banyak itu bertambah untuk tiap token tambahan dalam pembelajaran dalam konteks, angkanya sekitar 320 kilobyte. Jadi ada selisih 35 juta kali lipat dalam jumlah informasi yang diasimilasi model per token. Saya penasaran apakah itu relevan.
Andrej Karpathy 00:17:46
Saya cukup setuju. Cara saya biasanya menjelaskan ini adalah bahwa segala sesuatu yang terjadi selama pelatihan jaringan saraf hanyalah ingatan samar dari apa yang terjadi saat pelatihan. Itu karena kompresinya sangat ekstrem. Anda mengambil 15 triliun token lalu memampatkannya menjadi jaringan saraf akhir dengan puluhan miliar parameter. Jelas ada kompresi dalam jumlah luar biasa besar yang terjadi. Jadi saya menyebutnya sebagai ingatan samar atas dokumen-dokumen internet.
Sebaliknya, segala sesuatu yang terjadi di context window jaringan saraf—memasukkan semua token dan membangun semua representasi KV cache—dapat diakses jaringan saraf dengan sangat langsung. Karena itu saya membandingkan KV cache dan hal-hal yang terjadi saat waktu inferensi sebagai sesuatu yang lebih mirip memori kerja. Semua yang ada di context window dapat diakses jaringan saraf dengan sangat langsung.
Selalu ada kemiripan yang nyaris mencengangkan antara LLM dan manusia. Saya menganggapnya mengejutkan, karena kita tidak sedang secara langsung mencoba membuat otak manusia. Kita hanya melakukannya karena menemukan bahwa ini bekerja. Tetapi saya merasa bahwa semua yang ada di bobot itu adalah ingatan samar atas sesuatu yang Anda baca setahun lalu. Semua yang Anda berikan sebagai konteks pada waktu inferensi berada langsung di memori kerja. Itu metafora yang sangat kuat untuk memikirkan cara kerjanya.
Misalnya, jika Anda bertanya kepada LLM tentang sebuah buku, tentang apa yang terjadi di dalamnya, seperti buku Nick Lane, LLM sering kali akan memberi jawaban yang kira-kira benar. Tetapi kalau Anda memberinya seluruh bab lalu mengajukan pertanyaan, Anda akan mendapat hasil yang jauh lebih baik. Itu karena sekarang isinya telah dimuat ke memori kerja model. Jadi ini cara panjang untuk mengatakan bahwa saya setuju, dan itulah alasannya.
Dwarkesh Patel 00:19:11
Kalau mundur selangkah, bagian kecerdasan manusia apa yang paling gagal kita replikasi dengan model-model ini?
Andrej Karpathy 00:19:20
Sederhananya, banyak bagian. Jadi salah satu cara memikirkannya, meski saya tidak tahu apakah ini cara terbaik, adalah saya hampir—sekali lagi, membuat analogi seperti ini memang tidak sempurna—merasa bahwa kita secara tidak sengaja menemukan, dengan jaringan saraf transformer, sesuatu yang sangat kuat dan sangat umum. Anda bisa melatih transformer untuk audio, video, teks, apa pun yang Anda mau, dan ia mempelajari pola, sangat kuat, dan bekerja dengan sangat baik. Bagi saya, ini hampir menunjukkan bahwa ini adalah semacam bagian dari jaringan korteks. Rasanya seperti itu. Karena korteks terkenal sangat plastis. Anda bisa menyambung ulang bagian-bagian otak. Ada eksperimen yang agak menyeramkan yang menyambung ulang korteks visual ke korteks auditori, dan hewan ini belajar dengan baik.
Jadi saya menganggap ini sebagai jaringan kortikal (cortical tissue). Saat kita melakukan penalaran dan perencanaan di dalam jaringan saraf, saat kita membuat jejak penalaran untuk model berpikir, itu agak seperti korteks prefrontal. Mungkin itu semacam tanda centang kecil, tetapi saya masih merasa ada banyak bagian otak dan nukleus yang belum dijelajahi. Misalnya, ada ganglia basal yang sedikit mirip pembelajaran penguatan ketika kita melakukan sedikit reinforcement learning saat fine-tuning model. Tetapi di mana hipokampus? Tidak jelas itu akan menjadi apa. Beberapa bagian mungkin tidak penting. Mungkin serebelum tidak penting untuk kognisi, tidak penting untuk berpikir, jadi mungkin beberapa bagian bisa kita lewati. Tetapi saya tetap merasa ada, misalnya, amigdala, semua emosi dan naluri. Mungkin ada banyak nukleus tua lain di otak yang sebenarnya belum kita replikasi.
Saya tidak berpikir kita harus mengejar pembuatan analog otak manusia. Di benak saya, saya pada dasarnya seorang insinyur. Mungkin cara lain menjawab pertanyaan itu adalah bahwa saya tidak akan mempekerjakan ini sebagai magang. Masih banyak yang kurang. Ini juga terlihat dari banyak kekurangan kognitif yang secara intuitif kita rasakan saat berbicara dengan model. Jadi model ini memang belum sepenuhnya sampai ke sana. Anda bisa bilang belum semua bagian otak dicentang.
Dwarkesh Patel 00:21:16
Ini mungkin berkaitan dengan pertanyaan tentang seberapa cepat masalah-masalah ini akan terpecahkan. Kadang-kadang orang berkata tentang continual learning, “Lihat, kita bisa mereplikasi kemampuan ini dengan mudah. Sama seperti pembelajaran dalam konteks muncul secara spontan sebagai hasil pra-pelatihan, continual learning sepanjang horizon yang lebih panjang juga akan muncul secara spontan jika model diberi insentif untuk mengingat informasi sepanjang horizon yang lebih panjang, lebih dari satu sesi.” Jadi jika ada RL loop eksternal yang mencakup banyak sesi dalam loop eksternal itu, continual learning ini—entah dengan melakukan fine-tune pada dirinya sendiri atau menulis ke memori eksternal—akan muncul begitu saja secara spontan. Apakah hal-hal seperti itu terdengar masuk akal bagi Anda? Saya tidak punya intuisi awal tentang seberapa masuk akal itu. Seberapa mungkin itu terjadi?
Andrej Karpathy 00:22:07
Saya tidak sepenuhnya selaras dengan itu. Saat model-model ini di-boot, ketika jendelanya memiliki 0 token, mereka selalu memulai ulang dari awal, dari tempat yang sama seperti sebelumnya. Jadi saya tidak tahu seperti apa itu dalam cara pandang tersebut. Kalau membuat sedikit analogi dengan manusia—yang menurut saya cukup konkret dan menarik untuk dipikirkan—saat saya terjaga, saya merasa sedang membangun context window dari hal-hal yang terjadi sepanjang hari. Tetapi saat saya tidur, ada sesuatu yang ajaib terjadi, dan saya rasa context window itu tidak tetap ada. Ada semacam proses yang mendistilasikannya ke dalam bobot otak. Ini terjadi selama tidur dan hal-hal semacam itu.
Tidak ada padanan untuk itu pada large language model. Bagi saya, itulah yang lebih dekat dengan hal yang hilang saat kita berbicara tentang continual learning. Model-model ini sebenarnya tidak memiliki tahap distilasi yang mengambil hal-hal yang telah terjadi, lalu menganalisisnya secara obsesif, memikirkannya, melakukan sedikit proses pembuatan data sintetis, dan mendistilasikannya kembali ke dalam bobot. Dan mungkin tiap orang memiliki jaringan saraf tertentu. Mungkin itu LoRA. Bukan seluruh jaringan saraf berbobot penuh, hanya sebagian kecil subset bobot yang jarang yang berubah.
Tetapi kita memang ingin membangun cara untuk membuat individu-individu seperti ini dengan konteks yang sangat panjang. Jadi bukan hanya tinggal di context window, karena context window itu tumbuh sangat, sangat panjang. Mungkin kita juga punya sparse attention yang sangat canggih untuk itu. Tetapi saya tetap berpikir manusia jelas memiliki semacam proses yang mendistilasikan sebagian pengetahuan itu ke dalam bobot. Kita belum punya itu. Saya juga berpikir manusia memiliki sistem sparse attention yang sangat canggih, dan saya rasa kita mulai melihat beberapa petunjuk awal. DeepSeek v3.2 baru saja keluar dan saya melihat mereka memiliki sparse attention. Misalnya, ini adalah salah satu cara untuk memiliki context window yang sangat, sangat panjang. Jadi saya merasa kita sedang mengulangi banyak trik kognitif yang dipikirkan evolusi, meski melalui proses yang sangat berbeda. Tetapi kita akan berkonvergensi ke arsitektur yang serupa secara kognitif.
Dwarkesh Patel 00:24:02
Apakah menurut Anda 10 tahun lagi masih akan berupa sesuatu seperti transformer? Tapi dengan attention yang jauh lebih dimodifikasi dan MLP yang lebih sparse, dan semacamnya?
Andrej Karpathy 00:24:10
Cara saya memikirkannya adalah invariansi translasi dalam waktu. Di mana posisi kita 10 tahun lalu? Tahun 2015. Pada 2015, kita terutama punya jaringan saraf konvolusional, dan residual network baru saja muncul. Sangat mirip secara mengejutkan, tetapi tetap cukup berbeda. Transformer bahkan belum ada. Penyesuaian yang lebih modern terhadap transformer ini juga belum ada. Mungkin salah satu hal yang bisa kita pertaruhkan adalah, menurut saya, dengan kesetaraan translasi, 10 tahun dari sekarang kita masih akan melatih jaringan saraf raksasa dengan forward-backward pass dan pembaruan melalui gradient descent. Tapi mungkin tampilannya akan sedikit berbeda, dan semuanya akan jauh lebih besar.
Baru-baru ini saya kembali ke beberapa tahun lalu, sampai ke 1989, dan itu latihan yang menyenangkan bagi saya. Saya sedang mereproduksi jaringan konvolusional Yann LeCun tahun 1989. Itu adalah jaringan saraf pertama yang saya tahu dilatih dengan gradient descent. Jaringan saraf modern untuk pengenalan angka yang dilatih dengan gradient descent. Saya tertarik bagaimana ini bisa dimodernisasi. Seberapa banyak dari ini yang merupakan algoritme? Seberapa banyak yang merupakan data? Seberapa banyak dari kemajuan ini yang berasal dari komputasi dan sistem? Saya bisa dengan sangat cepat memangkas pembelajaran selama 33 tahun menjadi setengahnya melalui perjalanan waktu.
Jadi dengan melakukan perjalanan waktu algoritmis selama 33 tahun, saya bisa menyesuaikan apa yang dilakukan Yann LeCun pada 1989, dan memangkas error menjadi setengahnya. Tapi untuk mendapatkan keuntungan yang lebih besar, saya harus menambahkan jauh lebih banyak data, memperbesar set pelatihan 10 kali lipat, dan menambahkan lebih banyak optimisasi komputasi. Saya juga harus melatih jauh lebih lama dengan dropout dan teknik regularisasi lainnya.
Jadi semua hal ini harus meningkat secara bersamaan. Kita mungkin akan punya jauh lebih banyak data, perangkat keras yang jauh lebih baik, kernel dan perangkat lunak yang jauh lebih baik untuk menjalankan perangkat keras dan memaksimalkan apa yang kita dapatkan darinya, serta algoritme yang lebih baik. Semua ini, sepertinya tidak ada satu pun yang terlalu mendominasi. Semuanya ternyata cukup setara. Ini sudah menjadi tren selama beberapa waktu.
Jadi untuk menjawab pertanyaannya, saya memperkirakan akan ada perbedaan secara algoritmis dari apa yang terjadi hari ini. Tapi saya juga memperkirakan beberapa hal yang sudah berlangsung sangat lama mungkin akan tetap ada. Mungkin masih akan berupa jaringan saraf raksasa yang dilatih dengan gradient descent. Itu tebakan saya.
Dwarkesh Patel 00:26:16
Menakjubkan bahwa jika semua hal digabungkan, error-nya hanya turun setengah, kemajuan 30 tahun itu... setengah mungkin banyak. Karena jika Anda memangkas error menjadi setengah, itu sebenarnya...
Andrej Karpathy 00:26:30
Setengah itu banyak. Tapi yang mengejutkan bagi saya adalah semuanya harus meningkat secara menyeluruh: arsitektur, optimizer, fungsi loss. Dan semuanya juga telah terus membaik secara menyeluruh selamanya. Jadi saya memperkirakan semua perubahan itu akan tetap hidup dan sehat.
Dwarkesh Patel 00:26:43
Ya. Saya sebenarnya ingin mengajukan pertanyaan yang sangat mirip tentang nanochat. Karena Anda baru saja menulis kodenya, semua tahap proses pembuatan chatbot itu masih segar di RAM Anda. Saya penasaran apakah Anda punya pemikiran serupa seperti, “Oh, ternyata tidak ada satu pun yang relevan” dalam perjalanan dari GPT-2 ke nanochat. Apa pelajaran mengejutkan dari pengalaman itu?
Andrej Karpathy 00:27:08
Tentang membuat nanochat? nanochat adalah repositori yang saya rilis. Kemarin ya, atau lusa? Saya tidak ingat.
Dwarkesh Patel 00:27:15
Sepertinya kita bisa melihat akibat dari kurang tidur...
Andrej Karpathy 00:27:18
Ini mencoba menjadi repositori paling sederhana dan lengkap yang mencakup seluruh pipeline pembuatan klon ChatGPT dari awal sampai akhir. Jadi bukan hanya tahap-tahap individual, tetapi semua tahapnya, dan jumlahnya cukup banyak. Saya pernah mengerjakan semua tahap individual itu di masa lalu dan, dalam arti algoritmis, saya telah merilis potongan kode kecil yang menunjukkan bagaimana melakukannya dengan kode sederhana. Tapi ini mencakup seluruh pipeline. Dari sisi pembelajaran, saya tidak yakin bahwa saya pasti mempelajari sesuatu darinya. Saya sudah punya gambaran di kepala tentang cara membuatnya. Ini lebih merupakan proses mekanis untuk membangunnya dan membuatnya cukup rapi agar orang bisa belajar darinya dan menganggapnya berguna.
Dwarkesh Patel 00:28:04
Apa cara terbaik bagi seseorang untuk belajar darinya? Menghapus semua kodenya lalu mencoba mengimplementasikannya lagi dari awal, mencoba menambahkan modifikasi?
Andrej Karpathy 00:28:10
Pertanyaan bagus. Pada dasarnya ini sekitar 8.000 baris kode yang melewati seluruh pipeline dari awal sampai akhir. Saya mungkin akan menaruhnya di monitor kanan. Kalau Anda punya dua monitor, taruh di kanan. Kalau ingin membangunnya dari awal, mulailah dari awal. Copy-paste tidak boleh, referensi boleh, tapi copy-paste tidak boleh. Mungkin itu yang akan saya lakukan.
Tapi saya juga merasa repositori itu sendiri adalah monster yang cukup besar. Saat menulis kode ini, saya tidak bergerak dari atas ke bawah, saya bergerak per bagian dan membesarkan bagian-bagian itu, dan informasi itu tidak ada. Anda tidak akan tahu harus mulai dari mana. Jadi bukan hanya repositori akhirnya yang dibutuhkan, tetapi proses membangun repositori itu, yang merupakan proses pertumbuhan bagian yang rumit. Jadi bagian itu belum ada. Mungkin saya ingin menambahkannya akhir minggu ini. Mungkin dalam bentuk video atau semacamnya. Kira-kira, itulah yang ingin saya lakukan. Bangun sendiri, tapi jangan izinkan copy-paste.
Saya rasa hampir ada dua jenis pengetahuan. Ada pengetahuan permukaan tingkat tinggi, tetapi saat Anda membangun sesuatu dari awal, Anda harus berhadapan dengan hal-hal yang tidak Anda pahami, dan hal-hal yang Anda bahkan tidak sadar bahwa Anda tidak memahaminya.
Itu selalu mengarah ke pemahaman yang lebih dalam. Itulah satu-satunya cara untuk membangun. Kalau Anda tidak bisa membangunnya, berarti Anda tidak memahaminya. Saya percaya itu kutipan Feynman. Saya selalu sangat percaya pada ini. Karena ada hal-hal kecil seperti ini yang tidak tersusun dengan benar, dan Anda sebenarnya tidak punya pengetahuan itu. Anda hanya mengira Anda punya pengetahuan itu. Jadi jangan menulis posting blog, jangan membuat slide, jangan lakukan hal-hal seperti itu. Buat kodenya, susun, dan buat itu berjalan. Hanya itu jalannya. Kalau tidak, berarti ada pengetahuan yang hilang.
00:29:45 – Gangguan kognitif LLM
Dwarkesh Patel 00:29:45
Anda men-tweet bahwa model coding hampir tidak membantu dalam merakit repositori ini. Saya penasaran kenapa begitu.
Andrej Karpathy 00:29:53
Saya ingin mengatakan bahwa saya membangun repositori ini selama sedikit lebih dari sebulan. Dan saya juga ingin mengatakan bahwa saat ini ada tiga kelas utama cara orang berinteraksi dengan kode. Sebagian orang sepenuhnya menolak LLM dan hanya menulis dari awal. Ini mungkin bukan lagi cara yang tepat.
Bagian tengah adalah tempat saya berada: saya masih menulis banyak hal dari nol, tetapi sekarang saya menggunakan pelengkapan otomatis yang berguna dari model-model ini. Jika saya mulai menulis potongan kecil, ia akan melengkapinya secara otomatis, dan saya bisa lanjut dengan menekan tab. Dalam banyak kasus hasilnya benar, kadang salah, lalu saya edit. Tetapi Anda tetap arsitek dari apa yang sedang Anda tulis. Lalu ada vibe coding: "hai, tolong implementasikan ini atau itu", tekan enter, lalu biarkan model yang mengerjakannya. Itulah agen.
Saya merasa agen akan bekerja dalam pengaturan yang sangat spesifik, dan akan digunakan dalam pengaturan tertentu. Tetapi semua ini adalah alat yang bisa dipakai, dan Anda harus belajar apa yang mereka kuasai, apa yang tidak mereka kuasai, dan kapan harus menggunakannya. Agen cukup bagus, misalnya, untuk pekerjaan boilerplate. Kode boilerplate yang cuma copy-paste, hal-hal seperti itu, sangat cocok untuk mereka. Mereka juga sangat bagus untuk hal-hal yang sangat sering muncul di internet. Karena ada banyak contoh seperti itu di set pelatihan model-model ini. Ada ciri-ciri tertentu dari hal-hal yang akan sangat dikuasai model.
Saya ingin bilang nanochat bukan contoh seperti itu. Karena itu repositori yang cukup unik. Tidak banyak kode yang disusun dengan cara seperti yang saya susun. Itu bukan kode boilerplate. Itu kode yang padat secara intelektual, dan semuanya harus diatur dengan sangat presisi. Model-model ini punya terlalu banyak cacat kognitif. Sebagai salah satu contoh, mereka terus salah memahami kode karena mereka punya terlalu banyak ingatan tentang semua cara umum di internet yang tidak saya pakai. Misalnya, model terus mengira saya sedang menulis kode umum, padahal tidak.
Dwarkesh Patel 00:31:49
Mungkin satu contoh?
Andrej Karpathy 00:31:51
Ada 8 GPU dan semuanya melakukan forward dan backward pass. Cara untuk menyinkronkan gradien di antara mereka adalah memakai kontainer Distributed Data Parallel dari PyTorch, yang secara otomatis mulai berkomunikasi dan menyinkronkan gradien saat backward pass berlangsung. Saya tidak memakai DDP. Karena saya tidak ingin memakainya. Saya tidak membutuhkannya. Saya membuangnya dan menulis rutin sinkronisasi saya sendiri di dalam langkah optimizer. Model-model itu mencoba membuat saya memakai kontainer DDP. Mereka sangat khawatir soal itu. Ini jadi terlalu teknis, tetapi saya memang tidak memakai kontainer itu. Karena saya tidak membutuhkannya dan saya punya implementasi kustom untuk sesuatu yang mirip dengannya.
Dwarkesh Patel 00:32:26
Mereka tidak bisa menginternalisasi bahwa Anda punya versi Anda sendiri.
Andrej Karpathy 00:32:28
Mereka tidak bisa melewati itu. Mereka terus mencoba merusak gaya saya. Mereka terlalu defensif. Mereka membuat bermacam-macam pernyataan try-catch. Mereka terus mencoba membuat codebase produksi, padahal kode saya punya banyak asumsi, dan itu tidak apa-apa. Saya tidak butuh semua tambahan itu di sana. Jadi saya merasa mereka menggembungkan codebase, menggembungkan kompleksitas, terus salah paham, dan berkali-kali memakai API yang sudah tidak dipakai lagi. Benar-benar berantakan. Secara murni tidak berguna. Saya bisa masuk dan membersihkannya, tetapi secara murni tidak berguna.
Selain itu, saya merasa menjengkelkan harus mengetik dalam bahasa Inggris untuk menjelaskan apa yang saya inginkan. Itu terlalu banyak mengetik. Jika saya pergi ke bagian kode yang saya inginkan, ke tempat kode itu harus muncul, lalu mulai mengetik beberapa huruf pertama, pelengkapan otomatis akan mengerti dan memberi saya kodenya. Ini adalah bandwidth informasi yang sangat tinggi untuk menyatakan apa yang saya inginkan. Anda menunjuk ke kode yang diinginkan, mengetik beberapa potongan awal, lalu model melengkapinya.
Maksud saya, model-model ini bagus di bagian tertentu dalam stack. Ada dua contoh saya memakai model yang menurut saya cukup representatif. Salah satunya saat saya membuat laporan. Itu lebih bersifat boilerplate, jadi sebagian saya kerjakan dengan vibe coding. Karena itu bukan sesuatu yang mission-critical, itu tidak masalah, dan hasilnya bekerja dengan baik.
Bagian lainnya adalah saat menulis ulang tokenizer dalam Rust. Saya tidak terlalu mahir Rust. Rust cukup baru bagi saya. Jadi ada sedikit vibe coding saat saya menulis kode Rust. Tetapi saya punya implementasi Python yang sepenuhnya saya pahami, dan saya sedang memastikan bahwa saya membuat versi yang lebih efisien, serta saya punya pengujian, jadi saya merasa lebih aman melakukan hal-hal seperti itu. Model-model ini meningkatkan aksesibilitas terhadap bahasa atau paradigma yang mungkin belum Anda kuasai. Di situ juga saya rasa mereka sangat berguna. Ada banyak kode Rust, dan model-model ini cukup bagus untuk itu. Saya sendiri tidak terlalu tahu banyak soal itu, jadi model sangat berguna di sana.
Dwarkesh Patel 00:34:23
Alasan pertanyaan ini sangat menarik adalah karena narasi utama orang-orang tentang ledakan AI dan mencapai superintelligence dengan sangat cepat adalah bahwa AI akan mengotomatiskan rekayasa AI dan riset AI. Mereka melihat fakta bahwa ada Claude Code dan ia bisa membuat seluruh aplikasi dari nol, aplikasi CRUD, lalu berpikir, "kalau kemampuan yang sama ada di dalam OpenAI dan DeepMind, bayangkan ribuan versi Anda atau sejuta versi Anda berjalan paralel mencari penyesuaian arsitektur kecil."
Sangat menarik mendengar Anda mengatakan bahwa justru di situlah mereka secara asimetris lebih buruk. Itu cukup relevan untuk memprediksi apakah ledakan ala AI 2027 mungkin segera terjadi.
Andrej Karpathy 00:35:05
Itu cara mengungkapkannya yang bagus, dan saya paham mengapa timeline saya sedikit lebih panjang. Anda benar. Mereka tidak terlalu bagus untuk kode yang belum pernah ditulis sebelumnya. Mungkin itu salah satu cara untuk menjelaskannya, dan memang itulah yang ingin kita capai saat membangun model-model ini.
Dwarkesh Patel 00:35:19
Ini pertanyaan yang sangat naif, tetapi penyesuaian arsitektur yang Anda tambahkan ke nanochat ada di suatu paper, kan? Bahkan mungkin ada di repositori di suatu tempat. Jika Anda bilang, "tambahkan RoPE embedding", bukankah mengejutkan kalau mereka melakukannya dengan cara yang salah?
Andrej Karpathy 00:35:42
Sulit. Mereka tahu, tetapi tidak sepenuhnya tahu. Mereka tidak tahu bagaimana mengintegrasikannya secara penuh dengan repositori Anda, gaya Anda, kode Anda, konteks Anda, beberapa penyesuaian kustom yang Anda lakukan, dan bagaimana semua itu cocok dengan semua asumsi dalam repositori. Mereka punya sedikit pengetahuan, tetapi belum sampai pada titik di mana mereka bisa mengintegrasikan dan memahaminya.
Banyak hal terus membaik. Model state-of-the-art yang saya pakai saat ini adalah GPT-5 Pro, dan itu model yang sangat kuat. Jika Anda punya 20 menit, Anda bisa copy-paste seluruh repositori dan pergi ke GPT-5 Pro, sang oracle, lalu ajukan beberapa pertanyaan. Sering kali hasilnya tidak terlalu buruk dan secara mengejutkan jauh lebih baik dibanding apa yang ada satu tahun lalu.
Secara keseluruhan, model-model ini belum sampai ke sana. Saya merasa industri ini terlalu banyak berpura-pura bahwa mereka sedang membuat lompatan besar dan bahwa ini luar biasa, padahal tidak. Ini slop. Mereka tidak benar-benar berhadapan dengan itu, dan mungkin mereka sedang mencoba menggalang pendanaan atau semacamnya. Saya tidak tahu apa yang sedang terjadi, tetapi kita ada di tahap menengah ini. Model-model ini luar biasa. Tetapi masih perlu banyak kerja. Untuk saat ini, pelengkapan otomatis adalah sweet spot saya. Namun kadang-kadang, untuk jenis kode tertentu, saya akan memakai agen LLM.
Dwarkesh Patel 00:36:53
Ada alasan lain mengapa ini sangat menarik. Sepanjang sejarah pemrograman, sudah ada banyak peningkatan produktivitas—compiler, linting, bahasa pemrograman yang lebih baik—yang meningkatkan produktivitas programmer tetapi tidak memicu ledakan. Ini terdengar sangat mirip dengan tab pelengkapan otomatis, dan kategori lain ini hanyalah otomatisasi bagi programmer. Menarik bahwa Anda melihatnya lebih dalam kategori analogi historis seperti compiler yang lebih baik atau hal-hal semacam itu.
Andrej Karpathy 00:37:26
Mungkin ini mengarah ke satu pemikiran lain. Saya sulit membedakan di mana AI dimulai dan berhenti. Karena saya pada dasarnya melihat AI sebagai perluasan komputasi dengan cara yang cukup fundamental. Saya melihat ini sebagai sebuah kontinum. Sebuah kontinum sejak awal dari perbaikan diri rekursif atau percepatan programmer: editor kode, penyorotan sintaks, atau pemeriksaan tipe, pemeriksaan tipe data—semua alat yang kita buat untuk satu sama lain.
Bahkan mesin pencari juga. Mengapa mesin pencari bukan bagian dari AI? Pemeringkatan itu AI. Pada satu titik, bahkan di awal, Google menganggap dirinya sebagai perusahaan AI yang mengerjakan mesin pencari Google. Itu sepenuhnya masuk akal.
Saya melihatnya jauh lebih sebagai kontinum dibanding kebanyakan orang. Bagi saya, sulit menarik garisnya. Sekarang kita mendapatkan pelengkapan otomatis yang jauh lebih baik, dan sekarang kita juga mendapatkan beberapa agen yang bersifat iteratif seperti ini, tetapi kadang-kadang keluar jalur. Yang sedang terjadi adalah manusia secara bertahap melakukan lebih sedikit hal-hal tingkat rendah sedikit demi sedikit. Kita tidak menulis assembly code, karena ada compiler. Compiler akan mengambil bahasa tingkat tinggi seperti C dan menuliskan assembly code.
Kita sedang mengabstraksikan diri kita sendiri dengan sangat, sangat lambat. Ada sesuatu yang saya sebut sebagai "slider otonomi", di mana makin banyak hal diotomatisasi—di antara hal-hal yang pada akhirnya bisa diotomatisasi—kita sedikit demi sedikit makin jarang melakukannya, dan kita mengangkat diri kita ke lapisan abstraksi di atas otomatisasi itu.
00:40:05 – RL itu mengerikan
Dwarkesh Patel 00:40:05
Mari bicara sedikit tentang RL. Anda menulis tweet tentang hal-hal yang sangat menarik mengenai ini. Secara konseptual, bagaimana kita seharusnya memikirkan cara manusia dapat membangun world model yang kaya hanya dengan berinteraksi dengan lingkungan? Dan dengan cara yang tampak hampir tidak terkait dengan reward akhir di penghujung episode?
Jika seseorang memulai sebuah bisnis, dan 10 tahun kemudian mengetahui apakah bisnis itu sukses atau gagal, kita mengatakan dia memperoleh banyak kebijaksanaan dan pengalaman. Tetapi itu bukan karena log probability dari setiap hal tunggal yang terjadi selama 10 tahun terakhir dinaikkan atau diturunkan bobotnya. Ada sesuatu yang jauh lebih disengaja dan kaya yang sedang terjadi. Apa analogi ML-nya, dan bagaimana perbandingannya dengan apa yang kita lakukan dengan LLM saat ini?
Andrej Karpathy 00:40:47
Mungkin cara saya mengungkapkannya adalah bahwa manusia tidak menggunakan reinforcement learning. Seperti yang saya katakan. Saya rasa mereka melakukan sesuatu yang lain. Reinforcement learning jauh lebih buruk daripada yang dipikirkan orang rata-rata. Reinforcement learning itu mengerikan. Satu-satunya alasan itu terjadi adalah karena semua yang kita miliki sebelumnya jauh lebih buruk. Karena sebelumnya kita hanya meniru manusia, jadi ada semua masalah ini.
Dalam reinforcement learning, katakanlah Anda menyelesaikan soal matematika. Karena itu sangat sederhana. Anda diberi soal matematika dan mencoba mencari jawabannya. Dalam reinforcement learning, pertama-tama Anda akan mencoba banyak hal secara paralel. Anda diberi soal, lalu membuat ratusan percobaan berbeda. Percobaan-percobaan ini bisa rumit. Bisa seperti, "coba ini, coba itu, ini tidak berhasil, itu tidak berhasil," dan seterusnya. Lalu mungkin Anda mendapatkan jawabannya. Sekarang Anda memeriksa bagian belakang buku dan melihat, "oke, jawaban yang benar adalah ini." Anda bisa melihat bahwa ini, ini, dan itu mendapatkan jawaban yang benar, tetapi 97 yang lain tidak. Yang secara harfiah dilakukan reinforcement learning adalah pergi ke hal-hal yang bekerja sangat baik, lalu setiap hal tunggal yang Anda lakukan selama proses itu, setiap token tunggal, dibobotkan naik seperti "lakukan ini lebih banyak."
Masalahnya adalah, orang akan mengatakan estimator Anda punya varians tinggi, tetapi itu cuma noise. Itu noise. Itu mengasumsikan bahwa setiap potongan kecil dari solusi yang hampir mencapai jawaban benar adalah hal yang tepat untuk dilakukan, padahal itu tidak benar. Anda bisa saja masuk ke gang yang salah sampai akhirnya mencapai jawaban yang benar. Selama Anda mendapatkan jawaban yang benar, setiap hal salah yang Anda lakukan akan dibobotkan naik menjadi "lakukan ini lebih banyak." Mengerikan. Itu noise.
Anda melakukan semua pekerjaan ini dan pada akhirnya mendapatkan satu angka tunggal, "oh, benar." Berdasarkan itu, Anda membobotkan seluruh trajektori dengan menaikkan atau menurunkan bobotnya. Ungkapan yang saya suka adalah bahwa Anda sedang menyedot supervisi melalui sedotan. Anda telah melakukan semua pekerjaan ini, yang bisa berupa rollout selama satu menit, dan Anda sedang menyedot bit supervisi dari sinyal reward akhir melalui sedotan, lalu menyiarkannya ke seluruh trajektori dan menggunakannya untuk menaikkan atau menurunkan bobot trajektori itu. Itu benar-benar bodoh dan gila.
Manusia tidak akan pernah melakukan ini. Pertama, manusia tidak akan pernah melakukan ratusan rollout. Kedua, ketika seseorang menemukan jawabannya, mereka akan memiliki proses peninjauan yang cukup kompleks, seperti, "oke, bagian ini saya rasa sudah bagus, bagian ini tidak terlalu bagus. Mungkin saya seharusnya melakukan ini atau itu." Mereka memikirkan berbagai hal. LLM saat ini tidak memiliki hal seperti ini. Tidak ada padanannya. Tetapi saya melihat paper-paper mulai muncul. Paper-paper yang mencoba melakukan itu mulai muncul. Karena itu jelas bagi semua orang di bidang ini.
Imitation learning pertama, omong-omong, sangat menakjubkan, ajaib, dan luar biasa. Fakta bahwa Anda bisa melakukan fine-tuning pada imitasi manusia. Itu menakjubkan. Karena awalnya, yang kita miliki hanyalah base model. Base model adalah pelengkapan otomatis. Saat itu tidak jelas bagi saya, dan saya harus mempelajarinya. Paper yang benar-benar membuat saya terpukau adalah InstructGPT. Karena paper itu menunjukkan bahwa jika Anda mengambil model yang telah dipra-latih, yaitu pelengkapan otomatis, lalu melakukan fine-tuning pada teks yang terlihat seperti percakapan, model tersebut akan beradaptasi sangat cepat menjadi sangat percakapan, sambil mempertahankan semua pengetahuan dari pra-pelatihan. Ini membuat saya terpukau. Karena secara stilistika, saya tidak memahami bahwa Anda bisa menyesuaikan secepat itu dan menjadi asisten bagi pengguna hanya melalui beberapa loop fine-tuning pada jenis data seperti itu. Fakta bahwa itu berhasil terasa sangat ajaib bagi saya. Sangat luar biasa. Itu adalah hasil kerja 2–3 tahun.
Sekarang RL datang. Dan RL memungkinkan Anda melakukan sedikit lebih baik daripada imitation learning biasa. Karena Anda bisa memiliki reward function seperti ini dan melakukan hill climbing terhadap reward function tersebut. Beberapa masalah memang hanya punya jawaban yang benar, dan Anda bisa melakukan hill climbing terhadapnya tanpa meniru trajektori ahli. Jadi itu luar biasa. Model juga dapat menemukan jawaban yang mungkin tidak akan pernah dipikirkan manusia. Ini luar biasa. Tetapi, tetap saja bodoh.
Kita butuh lebih banyak. Kemarin saya melihat sebuah paper dari Google yang mencoba mengingat ide refleksi & peninjauan ini. Apakah itu paper Memory Bank? Saya tidak tahu. Saya telah melihat beberapa paper ke arah itu. Jadi saya memperkirakan pembaruan besar berikutnya tentang cara membuat algoritme untuk LLM akan datang dari area tersebut. Saya rasa kita butuh tiga atau empat atau lima lagi, semacam itu.
Dwarkesh Patel 00:44:54
Anda benar-benar hebat dalam menciptakan frasa yang hidup. Saya sangat suka "menyedot supervisi melalui sedotan".
Jadi maksud Anda masalah dengan reward berbasis hasil adalah bahwa ada trajektori raksasa ini, lalu Anda mencoba mempelajari segala kemungkinan tentang apa yang harus dilakukan dan tentang dunia dari satu bit akhir tunggal itu di ujungnya. Mengingat ini tampak begitu jelas, mengapa process supervision belum menjadi cara yang berhasil untuk membuat model lebih mampu sebagai alternatif? Apa yang menghalangi penggunaan paradigma alternatif ini?
Andrej Karpathy 00:45:29
Supervisi berbasis proses pada dasarnya berarti kita tidak hanya akan punya fungsi reward di bagian paling akhir. Setelah mengerjakan sesuatu selama 10 menit, kita tidak akan hanya bilang apakah itu bagus atau buruk. Kita akan memberi tahu seberapa baik kinerjanya di setiap langkah. Alasan kita belum memilikinya adalah karena melakukannya dengan benar itu rumit. Ada solusi parsial, dan kita tidak tahu cara mengalokasikan kredit. Kalau Anda mendapatkan jawaban benar, itu cuma pencocokan kesetaraan terhadap jawabannya. Sangat sederhana untuk diimplementasikan. Kalau Anda melakukan supervisi proses, bagaimana Anda mengalokasikan kredit parsial dengan cara yang bisa diotomatisasi? Tidak jelas bagaimana caranya.
Banyak lab mencoba melakukan itu dengan juri LLM seperti ini. LLM mencoba melakukannya. Anda memberi prompt ke LLM, "Hei, lihat solusi parsial siswa ini. Jika jawabannya adalah ini, menurutmu seberapa baik mereka mengerjakannya?" Lalu mereka mencoba menyetel prompt-nya.
Alasan ini rumit cukup halus. Setiap kali Anda menggunakan LLM untuk menetapkan reward, LLM itu adalah benda raksasa dengan miliaran parameter, dan bisa dieksploitasi. Jika Anda melakukan reinforcement learning terhadapnya, Anda hampir pasti akan menemukan contoh adversarial terhadap juri LLM itu. Jadi Anda tidak bisa melakukan ini terlalu lama. Mungkin kalau 10 atau 20 langkah, itu bisa berhasil, tetapi Anda tidak bisa melakukannya untuk 100 atau 1.000 langkah. Saya paham ini tidak terasa jelas, tetapi pada dasarnya model akan menemukan celah kecil. Di sudut-sudut model raksasa itu, ia akan menemukan semua hal palsu ini dan mencari cara untuk menipunya.
Satu contoh yang sangat menonjol di benak saya adalah, ini mungkin sudah publik, jika Anda menggunakan juri LLM untuk reward, Anda memberinya solusi dari siswa dan bertanya apakah siswa itu melakukannya dengan baik atau tidak. Kami melatih dengan reinforcement learning terhadap fungsi reward itu, dan itu berjalan sangat baik. Lalu, tiba-tiba, reward-nya menjadi sangat besar. Lonjakannya masif, dan hasilnya sempurna. Anda melihat itu dan berpikir, "Wah, ini berarti siswanya sempurna di semua soal ini. Matematika benar-benar sudah terpecahkan."
Tetapi ketika Anda melihat completion yang kami dapatkan dari model, isinya omong kosong total. Awalnya lumayan masuk akal, lalu berubah menjadi "dhdhdhdh". Cuma seperti, "Oh bagus, ambil 2 tambah 3 lalu lakukan ini dan itu, lalu dhdhdhdh." Anda melihatnya dan berpikir, ini gila. Bagaimana ini bisa mendapat reward 1 atau 100%? Ketika Anda melihat juri LLM-nya, ternyata "dhdhdhdh" adalah contoh adversarial untuk model itu, dan ia memberi probabilitas 100%.
Itu semata-mata karena ini adalah contoh out-of-sample bagi LLM. Ia belum pernah melihatnya saat pelatihan, dan ini berada di wilayah generalisasi murni. Ia belum pernah melihatnya saat pelatihan, dan di wilayah generalisasi murni, Anda bisa menemukan contoh-contoh seperti ini yang merusaknya.
Dwarkesh Patel 00:47:52
Pada dasarnya, Anda sedang melatih LLM untuk menjadi model prompt injection.
Andrej Karpathy 00:47:56
Bahkan itu pun bukan. Prompt injection terlalu mewah. Anda sedang mencari contoh adversarial, seperti istilah mereka. Ini jelas jawaban omong kosong yang salah, tetapi model menganggapnya luar biasa.
Dwarkesh Patel 00:48:07
Sejauh ini adalah bottleneck untuk membuat RL lebih kapabel, jika ingin dilakukan secara otomatis, Anda harus membuat LLM menjadi juri yang lebih baik. Apakah perlu pendekatan seperti GAN untuk membuat model lebih tangguh?
Andrej Karpathy 00:48:22
Lab-lab itu mungkin melakukan semua itu. Yang jelas adalah, "dhdhdhdh" seharusnya tidak mendapat reward 100%. Oke, ambil "dhdhdhdh", masukkan ke training set juri LLM, dan katakan ini bukan 100%, ini 0%. Anda bisa melakukan itu, tetapi setiap kali Anda melakukannya, Anda mendapat LLM baru, dan Anda tetap punya contoh adversarial. Ada contoh adversarial yang tak terbatas.
Mungkin kalau Anda mengulang ini beberapa kali, akan makin sulit menemukan contoh adversarial. Tetapi saya tidak 100% yakin. Karena ini punya satu triliun parameter atau semacam itu. Saya yakin lab-lab itu sedang mencobanya. Saya tetap berpikir kita butuh ide lain.
Dwarkesh Patel 00:48:57
Menarik. Apakah Anda punya gambaran seperti apa ide lain itu?
Andrej Karpathy 00:49:02
Ada ide untuk meninjau solusi dan memasukkan contoh sintetis, lalu ketika Anda melatih terhadap itu, model menjadi lebih baik, dan dalam beberapa hal melakukan meta-learning. Saya rasa ada beberapa makalah awal tentang ini. Saya masih berada pada tahap hanya membaca abstraknya. Karena banyak makalah ini pada dasarnya cuma ide. Seseorang harus membuatnya bekerja dengan generalitas penuh pada skala lab frontier LLM. Karena ketika saya melihat makalah-makalah ini, mereka muncul, dan agak noisy. Idenya keren, tetapi saya belum pernah melihat seseorang yang secara meyakinkan menunjukkan bahwa ini bisa dilakukan. Meskipun begitu, lab LLM juga cukup tertutup, jadi tidak ada yang tahu apa yang sedang mereka lakukan sekarang.
00:49:38 – Bagaimana manusia belajar?
Dwarkesh Patel 00:49:38
Saya bisa membayangkan cara melatih pada contoh sintetis atau masalah sintetis yang dibuat sendiri. Tetapi sepertinya ada hal lain yang dilakukan manusia—mungkin tidur adalah ini, mungkin melamun adalah ini—bukan harus menciptakan masalah palsu, melainkan sekadar berefleksi.
Saya tidak yakin apa analogi ML untuk melamun atau tidur, atau sekadar refleksi. Saya tidak menciptakan masalah baru. Jelas, analogi yang sangat dasar mungkin adalah fine-tuning pada bit refleksi, tetapi saya merasa mungkin itu tidak akan bekerja sebaik itu. Apakah Anda punya pikiran tentang apa analoginya?
Andrej Karpathy 00:50:17
Saya pikir kita kehilangan beberapa aspek di sana. Misalnya, lihat membaca buku. Ketika LLM saat ini sedang membaca buku, artinya ia membentangkan urutan teks, model memprediksi token berikutnya, dan memperoleh sedikit pengetahuan dari situ. Itu sebenarnya bukan yang dilakukan manusia. Saat Anda membaca buku, buku itu tidak terasa seperti eksposisi yang harus diperhatikan dan dilatih. Buku itu adalah seperangkat prompt untuk menghasilkan data sintetis, atau untuk pergi ke klub buku dan membicarakannya dengan teman-teman. Dengan memanipulasi informasi itu, Anda benar-benar memperoleh pengetahuan tersebut. Tidak ada padanan pada LLM. Mereka sebenarnya tidak melakukan itu. Akan menyenangkan jika selama pretraining ada semacam tahap untuk memikirkan materi itu dan mencoba menyelaraskannya dengan apa yang sudah diketahui, lalu memikirkannya selama beberapa waktu dan membuatnya bekerja. Tidak ada satu pun dari ini yang punya padanan. Semua ini masih riset.
Ada alasan yang sangat halus—yang menurut saya sangat sulit dipahami—mengapa ini tidak sepele. Kalau saya bisa menjelaskan satu: mengapa kita tidak bisa saja menghasilkan data sintetis dan melatih model terhadap itu? Anda memberi model hasil generasi sintetis tentang pemikiran terhadap buku, lalu melihatnya dan berpikir, "Ini terlihat bagus. Kenapa kita tidak bisa melatih dengan ini?" Anda bisa mencobanya, tetapi jika terus mencobanya, model akan menjadi jauh lebih buruk. Itu karena semua sampel yang Anda dapatkan dari model diam-diam mengalami collapse. Secara diam-diam—kalau Anda melihat contoh individual, itu tidak jelas—mereka menempati manifold yang sangat kecil dari ruang pemikiran yang mungkin. Ketika LLM keluar, mereka adalah apa yang kami sebut "collapsed". Mereka punya distribusi data yang kolaps. Salah satu cara mudah untuk melihatnya adalah pergi ke ChatGPT dan bertanya, "Ceritakan lelucon." Ia hanya punya 3 lelucon. Ia tidak memberi Anda seluruh rentang lelucon yang mungkin. Ia tahu 3 lelucon itu. Mereka diam-diam sudah kolaps.
Kita tidak mendapatkan kekayaan, keragaman, dan entropi dari model-model ini seperti yang kita dapatkan dari manusia. Manusia jauh lebih berisik, tetapi setidaknya tidak bias, dalam arti statistik. Mereka tidak runtuh secara diam-diam. Mereka mempertahankan entropi dalam jumlah besar. Jadi, bagaimana cara mempertahankan entropi sambil tetap membuat generasi data sintetis bekerja meskipun ada keruntuhan? Itu adalah masalah penelitian.
Dwarkesh Patel 00:52:20
Untuk memastikan saya memahaminya dengan benar, alasan keruntuhan ini berkaitan dengan generasi data sintetis adalah karena kita ingin bisa menghasilkan masalah sintetis atau refleksi yang belum ada di distribusi data, begitu?
Andrej Karpathy 00:52:32
Maksud saya, jika ada satu bab dalam sebuah buku dan Anda meminta LLM untuk memikirkannya, ia akan memberi Anda sesuatu yang tampak sangat masuk akal. Tetapi jika Anda bertanya 10 kali, Anda akan sadar bahwa semuanya sama.
Dwarkesh Patel 00:52:44
Jadi maksud Anda, untuk jumlah informasi prompt yang sama, Anda tidak bisa terus menskalakan “refleksi” dan mendapatkan keuntungan dari sana.
Andrej Karpathy 00:52:54
Sampel individual terlihat baik-baik saja, tetapi distribusinya cukup mengerikan. Mengerikan dalam arti bahwa jika Anda terus melatih terlalu banyak pada hasilnya sendiri, model itu benar-benar runtuh.
Saya rasa mungkin tidak ada solusi mendasar untuk ini. Saya juga berpikir manusia pun runtuh seiring waktu. Analogi seperti ini sangat bagus. Manusia runtuh sepanjang hidup mereka. Itulah sebabnya anak-anak belum overfit. Mereka akan mengatakan hal-hal yang bisa mengejutkan Anda. Karena Anda bisa melihat dari mana asalnya, tetapi itu bukan sekadar hal yang biasa dikatakan orang. Karena mereka belum runtuh. Tetapi kita sudah runtuh. Kita kembali mengunjungi pikiran-pikiran yang sama. Kita semakin sering mengatakan hal-hal yang sama, learning rate menurun, keruntuhan terus memburuk, lalu semuanya ikut memburuk.
Dwarkesh Patel 00:53:39
Apakah Anda pernah melihat makalah yang sangat menarik bahwa mimpi adalah cara mencegah overfitting dan keruntuhan semacam ini? Bahwa alasan mimpi adaptif secara evolusioner adalah karena ia menempatkan Anda dalam situasi aneh yang sangat berbeda dari realitas sehari-hari, untuk mencegah jenis overfitting seperti ini.
Andrej Karpathy 00:53:55
Itu ide yang menarik. Saat Anda menghasilkan hal-hal di dalam kepala Anda dan memperhatikannya, saya rasa Anda sedang melatih diri pada data sintetis Anda sendiri. Jika dilakukan terlalu lama, Anda keluar jalur dan terlalu banyak runtuh. Anda harus selalu mencari entropi dalam hidup. Berbicara dengan orang lain adalah sumber entropi yang luar biasa, hal-hal seperti itu. Jadi mungkin otak juga membangun mekanisme internal untuk meningkatkan jumlah entropi dalam proses itu. Itu ide yang menarik.
Dwarkesh Patel 00:54:25
Ini pemikiran yang masih sangat belum matang, jadi saya hanya akan mengatakannya dan minta respons Anda. Pembelajar terbaik yang kita kenal, yaitu anak-anak, sangat buruk dalam mengingat kembali informasi. Bahkan, pada tahap paling awal masa kanak-kanak, mereka akan melupakan semuanya. Mereka pada dasarnya hanya pasien amnesia terhadap semua yang terjadi sebelum usia tertentu. Tetapi mereka sangat hebat dalam menyerap bahasa baru dan belajar tentang dunia. Mungkin ada sesuatu di sana soal kemampuan melihat hutan alih-alih pohonnya.
Sebaliknya, di ujung spektrum yang lain, ada pra-pelatihan LLM, di mana model-model ini secara harfiah bisa mengulang kata demi kata apa yang berikutnya di halaman Wikipedia. Tetapi kemampuan mereka untuk benar-benar mempelajari konsep abstrak dengan sangat cepat, seperti yang bisa dilakukan anak-anak, jauh lebih terbatas. Lalu orang dewasa ada di suatu titik di antara keduanya, tidak memiliki fleksibilitas belajar masa kanak-kanak, tetapi bisa menghafal fakta dan informasi dengan cara yang lebih sulit bagi anak-anak. Saya tidak tahu apakah ada sesuatu yang menarik tentang spektrum itu.
Andrej Karpathy 00:55:19
Saya rasa ada sesuatu yang sangat menarik tentang itu, 100%. Saya rasa manusia jauh lebih punya unsur melihat hutan alih-alih pohonnya dibanding LLM. Kita sebenarnya tidak begitu pandai dalam menghafal, dan itu justru sebuah fitur. Karena kita tidak pandai menghafal, kita dipaksa mencari pola dalam pengertian yang lebih umum.
Sebagai perbandingan, LLM sangat pandai menghafal. Mereka akan melafalkan kembali potongan-potongan dari semua sumber pelatihan ini. Anda bisa memberi mereka data yang benar-benar tidak masuk akal. Anda bisa me-hash sejumlah teks atau semacamnya, mendapatkan urutan yang sepenuhnya acak. Jika Anda melatih pada itu, bahkan hanya dengan satu atau dua pengulangan, tiba-tiba model bisa mengulang semuanya. Ia akan menghafalnya. Tidak mungkin manusia membaca satu urutan angka acak lalu melafalkannya kembali kepada Anda.
Itu bukan bug, melainkan fitur. Karena itu memaksa kita hanya mempelajari komponen yang bisa digeneralisasi. Sementara itu, LLM terdistraksi oleh semua ingatan dari dokumen pra-pelatihan mereka, dan dalam arti tertentu itu mungkin sangat mengganggu bagi mereka. Jadi ketika saya berbicara tentang cognitive kernel, saya ingin menghapus memori yang kita bicarakan tadi. Saya ingin mereka punya lebih sedikit memori sehingga mereka harus mencari sesuatu, dan hanya mempertahankan algoritme untuk berpikir serta gagasan eksperimen, dan semua lem kognitif untuk bertindak.
Dwarkesh Patel 00:56:36
Apakah ini juga berkaitan dengan mencegah keruntuhan model?
Andrej Karpathy 00:56:41
Biar saya pikirkan. Saya tidak yakin. Itu hampir seperti sumbu yang terpisah. Model terlalu pandai menghafal, dan entah bagaimana kita harus menghilangkan itu. Manusia jauh lebih buruk, tetapi itu justru hal yang baik.
Dwarkesh Patel 00:56:57
Apa solusi untuk keruntuhan model? Ada hal-hal yang sangat naif yang bisa dicoba. Seperti distribusi terhadap logit harus lebih lebar, atau hal-hal seperti itu. Ada banyak hal naif yang bisa dicoba. Pada akhirnya, apa masalah dari pendekatan-pendekatan naif itu?
Andrej Karpathy 00:57:11
Pertanyaan bagus. Anda bisa membayangkan ada regularisasi terhadap entropi, hal-hal seperti itu. Tampaknya secara empiris itu tidak bekerja terlalu baik. Karena model-model saat ini memang runtuh. Tetapi saya akan mengatakan bahwa sebagian besar tugas yang kita inginkan dari mereka sebenarnya tidak menuntut keragaman. Mungkin itu jawaban atas apa yang sedang terjadi.
Lab frontier sedang mencoba membuat model berguna. Saya rasa keragaman output tidak terlalu... pertama, jauh lebih sulit untuk dikerjakan dan dievaluasi dan sebagainya, tetapi mungkin juga bukan itu yang menangkap sebagian besar nilainya.
Dwarkesh Patel 00:57:42
Bahkan, itu secara aktif dihukum. Kalau di RL Anda sangat kreatif, itu tidak bagus.
Andrej Karpathy 00:57:48
Ya. Atau mungkin jika Anda banyak mendapat bantuan menulis dari LLM, itu mungkin buruk. Karena model-model itu diam-diam akan memberi Anda hal yang sama semua. Mereka tidak akan menjelajahi banyak cara berbeda untuk menjawab pertanyaan.
Mungkin keragaman ini tidak dimiliki model karena banyak aplikasi tidak membutuhkannya. Tetapi ini menjadi masalah pada saat generasi data sintetis dan sebagainya. Jadi kita sebenarnya sedang merugikan diri sendiri dengan tidak mengizinkan model mempertahankan entropi ini. Mungkin laboratorium-laboratorium itu harus berusaha lebih keras.
Dwarkesh Patel 00:58:17
Saya kira Anda mengisyaratkan bahwa ini masalah yang sangat mendasar, sehingga tidak akan mudah diselesaikan. Apa intuisi Anda tentang itu?
Andrej Karpathy 00:58:24
Saya tidak yakin ini sangat mendasar. Saya tidak tahu apakah saya memang bermaksud mengatakan itu. Saya belum melakukan eksperimen seperti ini, tetapi saya rasa mungkin kita bisa meregularisasi entropi agar lebih tinggi. Jadi model didorong untuk memberi semakin banyak jawaban, tetapi Anda juga tidak ingin terlalu jauh menyimpang dari data pelatihan. Ia akan mulai menciptakan bahasanya sendiri. Ia akan mulai memakai kata-kata yang sangat langka, sehingga terlalu jauh hanyut dari distribusi.
Jadi saya rasa mengendalikan distribusi itu memang rumit. Mungkin dalam pengertian itu, ini memang tidak sepele.
Dwarkesh Patel 00:58:58
Kalau harus menebak, menurut Anda inti kecerdasan yang optimal seharusnya berukuran berapa bit? Jika dimasukkan ke dalam wahana penjelajah von Neumann, seberapa besar ukurannya?
Andrej Karpathy 00:59:10
Ini sangat menarik dalam sejarah bidang ini, karena pada satu titik semua orang benar-benar kecanduan scaling. “Oh, kita akan membuat model yang jauh lebih besar, model dengan parameter triliunan.” Ukuran model sempat naik, lalu sekarang justru turun. Model-model terdepan malah lebih kecil. Meski begitu, saya tetap merasa mereka menghafal terlalu banyak. Jadi beberapa waktu lalu saya membuat prediksi, dan saya merasa kita hampir bisa mendapatkan inti kognitif yang sangat baik bahkan di sekitar 1 miliar parameter.
Kalau Anda berbicara dengan model 1 miliar parameter, saya rasa 20 tahun dari sekarang Anda bisa melakukan percakapan yang sangat produktif dengannya. Ia akan berpikir, dan jauh lebih mirip manusia. Tetapi jika Anda menanyakan pertanyaan faktual tertentu, mungkin ia harus mencarinya, namun ia tahu bahwa ia tidak tahu dan mungkin perlu mencari, dan akan melakukan semua hal yang masuk akal.
Dwarkesh Patel 00:59:54
Saya terkejut Anda berpikir perlu 1 miliar parameter. Karena kita sudah punya model 1 miliar parameter atau beberapa miliar parameter, dan mereka sudah sangat cerdas.
Andrej Karpathy 01:00:02
Hmm, model terdepan itu sepertinya berada di kisaran triliunan parameter. Tapi mereka mengingat terlalu banyak hal.
Dwarkesh Patel 01:00:06
Ya, tapi mengingat lajunya, 10 tahun dari sekarang itu tetap mengejutkan... ada gpt-oss-20b. Itu jauh lebih baik daripada GPT-4 asli, yang parameternya lebih dari triliunan. Mengingat tren itu, mengejutkan bahwa Anda masih berpikir inti kognitifnya akan tetap 1 miliar parameter 10 tahun dari sekarang. Saya justru tidak akan terkejut kalau Anda bilang, “Oh, itu akan jadi puluhan juta atau jutaan.”
Andrej Karpathy 01:00:30
Masalahnya begini. Data pelatihan itu internet, dan internet benar-benar buruk. Ada keuntungan besar yang bisa didapat justru karena internet sangat buruk. Bahkan ketika Anda dan saya memikirkan internet, Anda mungkin membayangkan hal-hal seperti Wall Street Journal. Tapi itu bukan isinya. Kalau Anda melihat dataset pra-pelatihan di lab frontier dan menelusuri dokumen internet acak, isinya benar-benar sampah. Saya sama sekali tidak paham bagaimana ini bisa bekerja. Ticker saham, simbol-simbol, begitu banyak slop dan sampah dari setiap sudut internet. Bukan artikel seperti Wall Street Journal, karena yang seperti itu sangat langka. Jadi karena internet sangat buruk, kita harus membuat model yang sangat besar untuk memampatkan semua itu. Sebagian besar kompresi itu adalah kerja memori, bukan kerja kognitif.
Tapi yang benar-benar kita inginkan adalah bagian kognitifnya, dan membuang memorinya. Maksud saya, kita butuh model yang cerdas untuk membantu memurnikan set pra-pelatihan agar menyisakan hanya komponen kognitifnya. Lalu itu akan menjadi dataset yang jauh lebih baik, dan saya rasa kita bisa melakukannya dengan model yang jauh lebih kecil karena model itu akan dilatih pada data tersebut. Tapi mungkin bukan dilatih langsung pada itu, mungkin tetap didistilasi dari model yang jauh lebih baik.
Dwarkesh Patel 01:01:35
Tapi kenapa versi hasil distilasinya tetap 1 miliar?
Andrej Karpathy 01:01:39
Saya hanya merasa distilasi bekerja dengan sangat baik. Jadi hampir semua model kecil, kalau ada model kecil, hampir pasti itu hasil distilasi.
Dwarkesh Patel 01:01:46
Benar, tapi kenapa distilasi 10 tahun dari sekarang tidak turun ke bawah 1 miliar?
Andrej Karpathy 01:01:50
Oh, Anda pikir itu harus lebih kecil dari 1 miliar? Maksud saya, ya silakan saja, benar? Saya tidak tahu. Pada titik tertentu, untuk melakukan hal-hal yang menarik, rasanya Anda memang butuh setidaknya 1 miliar knob. Anda pikir harus lebih kecil?
Dwarkesh Patel 01:02:01
Ya. Kalau melihat tren beberapa tahun terakhir dalam memetik buah yang paling rendah gantungannya, dari model lebih dari triliunan ke model yang benar-benar 2x lebih kecil tapi berkinerja lebih baik hanya dalam 2 tahun, itu membuat saya berpikir inti kecerdasan bisa jadi jauh, jauh lebih kecil. Meminjam kata-kata Feynman, ada banyak ruang di bawah.
Andrej Karpathy 01:02:22
Saya sudah merasa cukup nyeleneh hanya dengan berbicara tentang inti kognitif 1 miliar parameter, tapi Anda malah melampaui saya. Mungkin memang bisa sedikit lebih kecil. Sebenarnya saya pikir kita tetap ingin model punya sejumlah pengetahuan. Saya tidak ingin semuanya harus dicari. Karena kalau begitu ia tidak bisa berpikir di dalam kepalanya. Ia akan selalu sibuk mencari terlalu banyak hal. Harus ada sebagian kurikulum dasar untuk pengetahuan, tapi bukan pengetahuan yang terlalu esoterik.
Dwarkesh Patel 01:02:48
Kita sedang membahas seperti apa inti kognitif itu. Ada pertanyaan terpisah tentang bagaimana ukuran model frontier akan berubah seiring waktu. Saya penasaran apakah Anda punya prediksi. Kita melihat skalanya meningkat sampai GPT 4.5, lalu sekarang skalanya menurun atau stagnan. Bisa jadi ada banyak alasan kenapa ini terjadi. Apakah Anda punya prediksi ke depan? Apakah model-model terbesar akan menjadi lebih besar, lebih kecil, atau tetap sama?
Andrej Karpathy 01:03:14
Saya tidak punya prediksi yang sangat kuat. Lab-lab itu pada dasarnya pragmatis saja. Mereka punya anggaran FLOP dan anggaran biaya. Ternyata pra-pelatihan bukan tempat di mana mereka ingin menaruh sebagian besar FLOP atau biaya. Itulah sebabnya model-model menjadi lebih kecil. Sedikit lebih kecil, jadi tahap pra-pelatihannya lebih kecil, tapi mereka menutupinya lewat reinforcement learning, mid-training, dan semua hal lain setelah itu. Mereka cuma pragmatis tentang setiap tahap dan bagaimana mendapatkan efek maksimal darinya.
Memprediksi tren itu cukup sulit. Saya masih memperkirakan masih ada sangat banyak buah yang rendah gantungannya. Itu ekspektasi dasar saya. Di sini saya punya distribusi yang sangat lebar.
Dwarkesh Patel 01:03:51
Apakah Anda memperkirakan buah yang rendah gantungannya itu akan mirip dengan jenis hal yang terjadi dalam 2–5 tahun terakhir? Kalau melihat nanochat dibanding nanoGPT dan penyesuaian arsitektur yang Anda buat, apakah itu rasa dari hal-hal yang Anda perkirakan akan terus terjadi? Anda tidak memperkirakan pergeseran paradigma yang besar.
Andrej Karpathy 01:04:11
Sebagian besar, ya. Saya memperkirakan dataset akan jadi jauh, jauh lebih baik. Kalau Anda melihat dataset rata-rata, itu benar-benar sangat buruk. Sangat buruk sampai saya sama sekali tidak paham bagaimana sesuatu bisa bekerja. Lihat contoh rata-rata dalam set pelatihan: kesalahan faktual, error, hal-hal yang tidak masuk akal. Entah bagaimana, kalau dilakukan pada skala besar, noise-nya tercuci habis dan hanya sebagian sinyal yang tersisa. Dataset akan meningkat secara besar-besaran.
Semuanya membaik. Hardware kita, semua kernel untuk menjalankan hardware dan memaksimalkan apa yang kita dapatkan dari hardware. Nvidia perlahan-lahan menyesuaikan hardwarenya sendiri, Tensor Core, semua itu harus terjadi dan akan terus terjadi. Semua kernel akan menjadi lebih baik dan memanfaatkan chip semaksimal mungkin. Semua algoritme mungkin juga akan membaik, dalam optimisasi, arsitektur, dan semua komponen pemodelan terkait bagaimana semuanya dibangun serta algoritme apa yang kita pakai untuk melatih. Saya tidak memperkirakan satu hal pun akan mendominasi. Semuanya plus 20%. Kurang lebih itulah yang saya lihat.
01:06:25 – AGI akan tercakup dalam pertumbuhan PDB 2%.
Dwarkesh Patel 01:06:25
Orang-orang telah mengusulkan berbagai cara untuk membuat grafik seberapa jauh kemajuan kita menuju AGI penuh. Jika Anda bisa membuat suatu garis, Anda bisa melihat di mana garis itu berpotongan dengan AGI, dan di mana itu akan terjadi pada sumbu x. Orang-orang mengusulkan bahwa itu adalah tingkat pendidikan. Kita sudah mencapai tingkat siswa SMA, lalu dengan RL naik ke tingkat kuliah, dan nanti akan mencapai gelar PhD.
Andrej Karpathy 01:06:44
Saya tidak suka itu.
Dwarkesh Patel 01:06:45
Atau mereka akan mengusulkan panjang horizon. Mungkin model sekarang bisa mengerjakan tugas yang memakan waktu 1 menit, dan bisa melakukannya secara otonom. Lalu bisa mengerjakan tugas yang butuh 1 jam bagi manusia, tugas yang butuh 1 minggu bagi manusia, secara otonom. Menurut Anda, apa sumbu y yang relevan di sini? Bagaimana kita seharusnya memikirkan kemajuan AI?
Andrej Karpathy 01:07:05
Ada dua jawaban untuk itu. Pertama, saya hampir ingin menolak pertanyaannya sendiri. Karena saya melihat ini sebagai perluasan dari komputasi. Apakah kita pernah membahas bagaimana membuat grafik kemajuan dalam komputasi, atau bagaimana kita membuat grafik kemajuan komputasi sejak 1970-an? Apa sumbu y-nya? Dari sudut pandang itu, keseluruhan pertanyaan ini terasa agak lucu.
Ketika orang berbicara tentang AI dan AGI pada awalnya, serta bagaimana kita membicarakannya saat OpenAI baru berdiri, AGI adalah sistem yang dapat melakukan semua pekerjaan yang bernilai ekonomi setara atau melampaui kinerja manusia. Itulah definisinya. Saya cukup puas dengan definisi itu saat itu, dan saya konsisten memegang definisi itu sampai sekarang. Lalu orang-orang menciptakan macam-macam definisi lain. Tapi saya suka definisi itu.
Konsesi pertama yang selalu dibuat orang adalah mengeluarkan semua hal yang bersifat fisik. Karena kita pada dasarnya hanya membicarakan knowledge work digital. Itu konsesi yang cukup besar dibanding definisi aslinya. Definisi aslinya adalah semua pekerjaan yang bisa dilakukan manusia. Saya bisa mengangkat barang, dan seterusnya. AI jelas tidak bisa melakukan itu, tetapi saya bisa menerimanya. Dengan mengatakan, “Oh, hanya knowledge work,” seberapa besar bagian ekonomi yang kita keluarkan? Saya tidak tahu angkanya. Perasaan saya sekitar 10% hingga 20%, kalau harus menebak, untuk knowledge work saja, seseorang yang bisa bekerja dari rumah dan menyelesaikan tugas, semacam itu. Itu tetap pasar yang sangat besar. Berapa ukuran ekonomi, dan berapa nilai 10% atau 20%-nya? Kita tetap berbicara tentang triliunan dolar, bahkan hanya di AS, dalam hal pangsa pasar atau pekerjaan. Jadi itu tetap kategori yang sangat besar.
Kembali ke definisinya, yang saya cari adalah sejauh mana definisi itu sudah benar secara nyata. Apakah sudah ada pekerjaan, atau banyak tugas, kalau kita memikirkan tugas alih-alih pekerjaan? Sulit. Karena masalahnya adalah masyarakat akan merestrukturisasi tugas-tugas yang membentuk pekerjaan berdasarkan apa yang bisa atau tidak bisa diotomatisasi. Hari ini, pekerjaan apa yang bisa digantikan oleh AI? Contoh yang bagus belakangan ini adalah prediksi Geoff Hinton bahwa radiolog tidak akan lagi menjadi pekerjaan, dan ini terbukti sangat salah dalam banyak hal. Radiolog masih ada, sehat-sehat saja, dan justru bertumbuh. Padahal computer vision sudah sangat, sangat bagus dalam mengenali semua hal berbeda yang harus mereka kenali dari gambar. Itu memang pekerjaan kompleks dengan banyak permukaan, karena melibatkan penanganan pasien dan konteks dari semua hal ini.
Dengan definisi itu, saya tidak merasa AI sudah memberi dampak besar. Beberapa pekerjaan yang akan saya cari punya karakteristik tertentu yang membuatnya sangat cocok untuk otomatisasi lebih awal dibanding yang lain. Misalnya, pekerja call center sering muncul sebagai contoh, dan saya rasa itu benar. Pekerja call center memiliki banyak sifat penyederhanaan terkait apa yang bisa diotomatisasi saat ini. Pekerjaannya cukup sederhana. Itu adalah urutan tugas, dan semua tugasnya terlihat mirip. Anda menerima panggilan telepon dari seseorang, ada interaksi selama 10 menit, atau apa pun, mungkin lebih lama. Dari pengalaman saya, jauh lebih lama. Anda menyelesaikan suatu tugas dalam suatu sistem, mengubah beberapa entri database atau semacamnya. Jadi Anda terus mengulang sesuatu, dan itulah pekerjaan Anda.
Saya ingin mengambil horizon tugas—berapa lama waktu yang dibutuhkan untuk menyelesaikan suatu tugas—lalu menghilangkan konteksnya. Anda tidak menangani layanan perusahaan atau bagian lain dari pelanggan lain. Hanya database, Anda, dan orang yang Anda layani. Itu lebih tertutup, lebih mudah dipahami, dan sepenuhnya digital. Jadi saya akan mencari hal-hal seperti itu.
Tetapi bahkan di situ pun, saya belum mencari otomatisasi penuh. Saya mencari slider otonomi. Saya tidak berharap kita langsung menggantikan manusia. Kita akan mengganti dengan AI yang menangani 80% volume. Mereka akan mendelegasikan 20% volume kepada manusia, dan manusia akan mengawasi lima tim AI yang menangani pekerjaan call center yang lebih terstruktur. Saya akan mencari antarmuka baru atau perusahaan baru yang menyediakan lapisan yang memungkinkan Anda mengelola sebagian AI ini. Mereka masih belum sempurna. Lalu saya akan mengharapkan hal yang sama di seluruh ekonomi. Banyak pekerjaan jauh lebih sulit daripada pekerja call center.
Dwarkesh Patel 01:11:02
Tentang radiolog, saya benar-benar hanya menebak dan sama sekali tidak tahu alur kerja nyata seorang radiolog itu seperti apa. Tapi satu analogi yang mungkin relevan adalah ketika Waymo pertama kali diluncurkan, ada seseorang duduk di kursi depan, yang harus ada di sana jika sesuatu benar-benar salah. Bahkan hari ini pun, orang masih mengawasi untuk memastikan semuanya berjalan baik. Robotaxi yang baru diluncurkan pun masih memiliki orang di dalamnya.
Sekarang, bahkan jika kita mengotomatisasi 99% dari suatu pekerjaan, 1% terakhir yang harus dilakukan manusia bisa menjadi sangat berharga karena itu menjadi bottleneck bagi semua hal lainnya. Jika dalam kasus radiolog, orang yang duduk di depan Waymo itu harus dilatih secara khusus selama bertahun-tahun untuk menyediakan 1% terakhir itu, maka gaji mereka seharusnya naik drastis. Karena mereka adalah satu-satunya hal yang membatasi deployment dalam skala luas. Radiolog, menurut saya, mungkin mengalami kenaikan gaji karena alasan serupa, jika Anda adalah bottleneck terakhir dan tidak bisa digantikan. Pengemudi Waymo mungkin bisa saling menggantikan dengan orang lain. Jadi Anda bisa melihat pola semacam ini, di mana gaji naik sampai kita mencapai 99%, lalu jatuh saat 1% terakhir itu hilang. Dan saya penasaran apakah kita melihat sesuatu yang serupa pada radiologi atau gaji pekerja call center atau semacamnya.
Andrej Karpathy 01:12:17
Pertanyaan yang menarik. Saya rasa saat ini kita belum melihat itu di radiologi. Saya tidak merasa radiologi adalah contoh yang bagus. Saya tidak tahu kenapa Geoff Hinton memilih radiologi. Karena menurut saya itu pekerjaan yang sangat kompleks.
Saya akan jauh lebih tertarik, misalnya, pada apa yang sedang terjadi pada pekerja call center saat ini. Karena saya memang memperkirakan banyak bagian yang terstruktur akan bisa diotomatisasi hari ini. Saya tidak punya akses langsung terhadap datanya, tetapi saya akan mencari tren tentang apa yang sedang terjadi pada pekerja call center. Hal lain yang juga saya perkirakan adalah mungkin mereka memang menggantikan dengan AI, tetapi kemudian saya tetap akan menunggu satu atau dua tahun. Karena ada kemungkinan mereka akan mundur dan mempekerjakan kembali sebagian orang.
Dwarkesh Patel 01:13:00
Ada bukti bahwa itu secara umum sudah terjadi di perusahaan-perusahaan yang mengadopsi AI. Menurut saya itu cukup mengejutkan.
Hal lain yang juga sangat mengejutkan bagi saya adalah ini. AGI, kan? Itu akan melakukan segalanya. Kita keluarkan pekerjaan fisik, tapi ia seharusnya bisa melakukan semua knowledge work. Secara naif, saya membayangkan kemajuan ini akan terjadi dengan cara mengambil tugas kecil yang dikerjakan konsultan, lalu mengeluarkannya dari kategorinya. Mengambil tugas kecil yang dikerjakan akuntan, lalu mengeluarkannya dari kategorinya. Lalu melakukan itu di seluruh knowledge work.
Namun sebaliknya, jika Anda percaya bahwa kita sedang berada di jalur menuju AGI dengan paradigma saat ini, kenyataannya sama sekali tidak seperti itu. Tidak terlihat bahwa konsultan dan akuntan mendapatkan peningkatan produktivitas yang luar biasa. Ini sangat mirip dengan para programmer yang sedikit demi sedikit pekerjaannya tergerus. Jika melihat pendapatan perusahaan-perusahaan ini, dan mengesampingkan pendapatan chat umum—itu mirip seperti Google dan semacamnya—jika hanya melihat pendapatan API, coding mendominasi. Jadi hal yang seharusnya "umum" ini, yang mestinya bisa melakukan semua pekerjaan pengetahuan, justru secara telak hanya melakukan coding. Itu cara yang mengejutkan untuk membayangkan AGI akan diterapkan.
Andrej Karpathy 01:14:13
Ada hal menarik di sini. Saya percaya coding adalah hal pertama yang sempurna untuk LLM dan agen ini. Karena coding pada dasarnya selalu bekerja di sekitar teks. Terminal komputer dan teks, semuanya berbasis teks. LLM menyukai teks karena cara mereka dilatih di internet. Mereka adalah pemroses teks yang sempurna, dan ada semua data ini di sana. Ini sangat cocok.
Kita juga sudah memiliki banyak infrastruktur yang dibangun sebelumnya untuk menangani kode dan teks. Misalnya, Visual Studio Code atau IDE favorit Anda menampilkan kode, dan agen bisa terhubung ke sana. Jika ada diff dari perubahan yang dibuat agen, kita tiba-tiba sudah punya semua kode ini untuk menampilkan semua perbedaan di codebase menggunakan diff. Rasanya kita telah membangun banyak infrastruktur untuk kode sebelumnya.
Bandingkan itu dengan hal-hal yang sama sekali tidak menikmati keuntungan tersebut. Misalnya, ada orang-orang yang mencoba membangun otomatisasi untuk slide, bukan coding. Saya pernah melihat perusahaan yang mengerjakan slide. Itu jauh, jauh lebih sulit. Lebih sulit karena slide bukan teks. Slide adalah grafik-grafik kecil, disusun secara spasial, dan memiliki komponen visual. Slide tidak punya infrastruktur bawaan ini. Misalnya, jika agen mengubah slide, bagaimana Anda menampilkan diff? Bagaimana Anda melihat diff? Tidak ada yang menampilkan diff untuk slide. Seseorang harus membuatnya. Sebagian dari hal-hal ini tidak cocok untuk AI yang merupakan pemroses teks, sedangkan kode ternyata sangat cocok.
Dwarkesh Patel 01:15:48
Saya tidak yakin itu saja sudah cukup menjelaskannya. Secara pribadi saya sudah mencoba membuat LLM berguna di domain yang murni input bahasa, output bahasa, seperti menulis ulang transkrip, membuat klip berdasarkan transkrip, hal-hal seperti itu. Sangat mungkin saya tidak melakukan semua hal yang mungkin bisa dilakukan. Saya memberi banyak contoh bagus dalam konteks, tetapi mungkin saya seharusnya melakukan semacam fine-tuning.
Teman kita bersama, Andy Matuschak, mengatakan bahwa dia mencoba 50 miliar hal agar model menjadi bagus dalam menulis prompt spaced repetition. Sekali lagi, ini tugas yang sangat input bahasa, output bahasa, dan seharusnya berada tepat di tengah repertoar LLM seperti ini. Dia mencoba pembelajaran in-context dengan contoh few shot. Dia juga mencoba supervised fine-tuning dan retrieval. Dia tidak bisa membuat model menghasilkan kartu yang memuaskannya.
Jadi bahkan di domain output bahasa, terpisah dari coding, mengesankan betapa sulitnya mendapatkan banyak nilai ekonomi dari model-model ini. Saya tidak tahu apa yang menjelaskan itu.
Andrej Karpathy 01:16:57
Itu masuk akal. Saya tidak mengatakan bahwa segala sesuatu yang berupa teks itu sepele. Saya pikir kode cukup terstruktur. Saya ingin mengatakan bahwa teks mungkin jauh lebih mewah, dan memiliki entropi yang jauh lebih besar. Saya tidak tahu cara lain mengatakannya. Selain itu, kode itu sulit, jadi orang merasa cukup diberdayakan oleh LLM bahkan hanya dengan pengetahuan yang sederhana. Saya tidak merasa punya jawaban yang sangat bagus. Jelas, fakta bahwa ini teks membuatnya jauh, jauh lebih mudah, tetapi itu tidak berarti semua teks itu sepele.
01:17:36 – ASI (kecerdasan super)
Dwarkesh Patel 01:17:36
Apa pendapat Anda tentang superintelligence? Apakah Anda berharap itu akan terasa berbeda secara kualitatif dari manusia biasa atau perusahaan manusia?
Andrej Karpathy 01:17:45
Saya melihatnya sebagai kelanjutan otomatisasi dalam masyarakat. Jika Anda mengekstrapolasi tren komputasi, akan ada otomatisasi bertahap atas banyak hal, dan superintelligence akan menjadi ekstrapolasi dari itu. Saya memperkirakan bahwa seiring waktu akan ada semakin banyak entitas otonom yang melakukan banyak pekerjaan digital dan kemudian, setelah beberapa waktu, bahkan pekerjaan fisik. Pada dasarnya saya melihatnya hanya sebagai otomatisasi, secara garis besar.
Dwarkesh Patel 01:18:10
Tetapi otomatisasi mencakup hal-hal yang manusia sudah bisa lakukan, sementara superintelligence berarti hal-hal yang manusia tidak bisa lakukan.
Andrej Karpathy 01:18:16
Tetapi salah satu hal yang dilakukan manusia adalah menciptakan hal-hal baru, dan jika itu masuk akal, saya akan memasukkan itu ke dalam otomatisasi.
Dwarkesh Patel 01:18:20
Tapi secara kurang abstrak dan lebih kualitatif, apakah sesuatu yang... karena ini bisa berpikir jauh lebih cepat, atau punya begitu banyak salinan, atau salinan-salinan itu bisa bergabung kembali dengan dirinya sendiri, atau jauh lebih pintar, atau salah satu dari banyak keuntungan yang bisa dimiliki AI—apakah peradaban tempat AI semacam ini ada akan terasa berbeda secara kualitatif dari manusia?
Andrej Karpathy 01:18:51
Saya pikir iya. Pada dasarnya itu otomatisasi, tetapi akan terasa sangat asing. Akan tampak sangat aneh. Seperti yang Anda sebutkan, kita bisa menjalankan semua ini di cluster komputer dan melakukannya jauh lebih cepat.
Beberapa skenario yang mulai membuat saya khawatir ketika dunia terlihat seperti itu adalah hilangnya kontrol dan pemahaman secara bertahap tentang apa yang sedang terjadi. Saya pikir hilangnya pemahaman secara bertahap adalah hasil yang paling mungkin. Kita akan secara bertahap menumpuk semua hal ini di mana-mana, dan akan semakin sedikit orang yang memahaminya. Lalu akan ada hilangnya kontrol dan pemahaman secara bertahap tentang apa yang sedang terjadi. Bagi saya, itu tampak seperti hasil yang paling mungkin tentang bagaimana semua ini akan berkembang.
Dwarkesh Patel 01:19:31
Izinkan saya menggali itu sedikit lebih jauh. Tidak jelas bagi saya apakah hilangnya kontrol dan hilangnya pemahaman itu hal yang sama. Dewan direksi TSMC, Intel—sebut saja perusahaan apa pun—mereka cuma sekumpulan orang berusia 80 tahun yang terpandang. Mereka hampir tidak punya pemahaman, dan mungkin juga sebenarnya tidak benar-benar punya kontrol yang substansial.
Contoh yang lebih baik adalah presiden Amerika Serikat. Presiden punya banyak kekuasaan. Saya tidak sedang mencoba membuat pernyataan baik tentang petahana saat ini, meski mungkin juga begitu, tetapi tingkat pemahaman nyata sangat berbeda dari tingkat kontrol.
Andrej Karpathy 01:20:06
Itu adil. Itu sanggahan yang bagus. Saya rasa saya memperkirakan hilangnya keduanya.
Dwarkesh Patel 01:20:15
Bagaimana? Hilangnya pemahaman jelas, tetapi mengapa hilangnya kontrol?
Andrej Karpathy 01:20:20
Kita benar-benar masuk jauh ke wilayah yang kita tidak tahu akan seperti apa, tetapi jika saya menulis fiksi ilmiah, saya akan mengikuti arah beberapa entitas yang saling bersaing, yang secara bertahap menjadi semakin otonom, bahkan bukan satu entitas tunggal yang mengambil alih segalanya. Sebagian dari mereka menjadi nakal dan yang lain mengalahkan mereka. Ini semacam hotspot aktivitas yang sepenuhnya otonom yang telah kita delegasikan. Saya merasa rasanya akan seperti itu.
Dwarkesh Patel 01:20:52
Bukan fakta bahwa mereka lebih pintar dari kita yang menyebabkan hilangnya kontrol. Faktanya adalah mereka saling bersaing, dan apa pun yang muncul dari persaingan itu mengarah pada hilangnya kontrol.
Andrej Karpathy 01:21:06
Ya. Banyak dari hal-hal ini akan menjadi alat bagi orang-orang, dan akan bertindak atas nama orang-orang atau semacamnya. Jadi mungkin orang-orang itu tetap mengendalikan, tetapi mungkin bagi masyarakat secara keseluruhan itu adalah hilangnya kontrol dalam arti hasilnya bukan lagi hasil yang kita inginkan. Kita masih memiliki entitas yang bertindak atas nama individu, yang secara garis besar tetap tampak di luar kendali.
Dwarkesh Patel 01:21:30
Ini pertanyaan yang seharusnya saya ajukan lebih awal. Kita tadi membahas soal saat melakukan AI engineering atau riset AI sekarang, rasanya model-model ini lebih masuk kategori compiler daripada pengganti.
Pada titik tertentu, jika Anda punya AGI, seharusnya ia bisa melakukan pekerjaan yang Anda lakukan. Apakah Anda merasa memiliki sejuta salinan diri Anda secara paralel akan menyebabkan percepatan luar biasa dalam kemajuan AI? Jika itu terjadi, jika kita benar-benar punya AGI, apakah Anda memperkirakan kita akan melihat ledakan kecerdasan? Saya tidak sedang membicarakan LLM masa kini.
Andrej Karpathy 01:22:01
Ya, tetapi itu business as usual. Karena kita sebenarnya sudah berada di dalam ledakan kecerdasan, dan sudah begitu selama puluhan tahun. Pada dasarnya ini adalah kurva GDP yang merupakan penjumlahan berbobot eksponensial dari begitu banyak aspek industri. Segala sesuatu secara bertahap sedang diotomatisasi, dan sudah begitu selama ratusan tahun. Revolusi industri adalah otomatisasi pada sebagian komponen fisik dan pembuatan alat, dan sebagainya. Compiler adalah otomatisasi perangkat lunak awal, dan seterusnya. Kita sudah lama melakukan perbaikan diri rekursif dan meledak.
Cara lain melihatnya adalah bahwa Bumi adalah tempat yang cukup membosankan jika Anda tidak melihat biodinamika dan semacamnya, dan tampil sangat mirip. Dari luar angkasa, kita sedang berada tepat di tengah peristiwa kembang api ini, tetapi kita melihatnya dalam gerak lambat. Saya jelas merasa ini sudah berlangsung sejak lama. Sekali lagi, saya tidak melihat AI sebagai teknologi yang terpisah dari sesuatu yang memang sudah lama terjadi.
Dwarkesh Patel 01:23:00
Dan menurut Anda ini berkelanjutan dengan tren supereksponensial itu?
Andrej Karpathy 01:23:03
Ya. Itu sangat menarik bagi saya. Karena saya sudah lama mencoba mencari AI di GDP. Saya pikir GDP seharusnya naik. Tetapi saya melihat teknologi lain yang saya anggap sangat transformatif, seperti komputer atau ponsel, dan sebagainya. Anda tidak bisa menemukan itu di GDP. GDP tetap eksponensial yang sama.
Bahkan iPhone awal pun tidak punya App Store, dan tidak memiliki banyak ornamen yang dimiliki iPhone modern. Jadi meskipun Anda menganggap 2008, saat iPhone keluar, sebagai pergeseran lempeng besar ini, sebenarnya tidak juga. Semuanya terlalu tersebar dan menyebar terlalu lambat, sehingga pada akhirnya semuanya dirata-ratakan ke eksponensial yang sama. Komputer juga persis sama. Anda tidak bisa menemukannya di GDP seperti, "oh, sekarang ada komputer." Itu tidak terjadi. Karena semuanya berlangsung terlalu lambat.
Kita akan melihat hal yang persis sama dengan AI. Ini hanya lebih banyak otomatisasi. AI memungkinkan kita menulis jenis program lain yang sebelumnya tidak bisa kita tulis. Tetapi AI pada dasarnya tetaplah program. Ini adalah jenis komputer baru dan jenis sistem komputasi baru. Tetapi ia tetap punya semua masalah ini, akan menyebar seiring waktu, dan tetap akan ditambahkan ke eksponensial yang sama. Kita tetap akan punya eksponensial yang menjadi sangat vertikal. Hidup di lingkungan seperti itu akan terasa sangat aneh.
Dwarkesh Patel 01:24:10
Jika Anda melihat tren dari sebelum revolusi industri sampai sekarang, apakah Anda mengatakan kita punya supereksponensial yang bergerak dari pertumbuhan 0%, ke pertumbuhan 0,02% 10.000 tahun lalu, lalu ke pertumbuhan 2% sekarang? Itu supereksponensial. Jika Anda membuat AI di atasnya sebagai grafik, apakah Anda mengatakan AI akan membawa kita ke pertumbuhan 20% atau 200%?
Atau apakah Anda mengatakan bahwa jika melihat 300 tahun terakhir, kita melihat tiap teknologi—komputer, elektrifikasi, mesin uap, rel kereta, dan sebagainya—tetapi laju pertumbuhannya persis sama, yaitu 2%? Apakah Anda mengatakan laju pertumbuhan akan naik?
Andrej Karpathy 01:24:46
Laju pertumbuhan juga kurang lebih tetap konstan, kan?
Dwarkesh Patel 01:24:49
Hanya dalam 200–300 tahun terakhir. Tetapi sepanjang sejarah manusia, itu meledak. Dari 0% menjadi lebih cepat, lebih cepat, lebih cepat. Ledakan industri, 2%.
Andrej Karpathy 01:25:01
Selama beberapa waktu saya mencoba menemukan AI, atau mencari AI, dalam kurva GDP, dan meyakinkan diri saya bahwa ini salah. Bahkan ketika orang-orang berbicara tentang perbaikan diri rekursif dan lab riset, ini tetap business as usual. Tentu saja kita akan memperbaiki diri secara rekursif, dan kita memang sudah melakukannya.
LLM membuat para engineer bisa bekerja jauh lebih efisien untuk membangun putaran LLM berikutnya, dan jauh lebih banyak komponen yang diotomatisasi dan diorkestrasi. Semua engineer yang punya akses ke Google Search juga bagian dari itu. Semua engineer yang punya IDE, semua engineer yang punya autocomplete atau Claude Code, dan seterusnya, semuanya bagian dari percepatan yang sama secara keseluruhan. Terlalu mulus.
Dwarkesh Patel 01:25:41
Jadi untuk memperjelas, Anda mengatakan laju pertumbuhan tidak akan berubah. Ledakan kecerdasan akan muncul hanya sebagai sesuatu yang membantu kita tetap berada di lintasan pertumbuhan 2%, seperti internet membantu kita tetap di lintasan pertumbuhan 2%.
Andrej Karpathy 01:25:53
Ya, ekspektasi saya adalah kita tetap dalam pola yang sama.
Dwarkesh Patel 01:25:58
Untuk menyampaikan argumen sebaliknya, ekspektasi saya adalah itu akan meledak. Karena saya pikir AGI yang sesungguhnya—dan saya tidak sedang membicarakan bot coding LLM, saya sedang membicarakan pengganti manusia sungguhan di server—secara kualitatif berbeda dari teknologi peningkat produktivitas lainnya. Karena itu adalah tenaga kerja itu sendiri.
Saya rasa kita hidup di dunia yang sangat dibatasi oleh tenaga kerja. Kalau bicara dengan pendiri startup atau siapa pun, lalu bertanya apa yang mereka butuhkan lebih banyak, jawabannya adalah orang-orang yang benar-benar berbakat. Jika ada miliaran orang tambahan yang bisa menciptakan sesuatu, mengintegrasikan sesuatu, dan membangun perusahaan dari ujung ke ujung, itu terasa berbeda secara kualitatif dari satu teknologi tunggal. Rasanya seperti mendapat 10 miliar orang tambahan di Bumi.
Andrej Karpathy 01:26:44
Mungkin itu kontraargumen. Saya cukup terbuka untuk diyakinkan ke satu arah atau arah lain dalam hal ini. Tetapi misalnya, komputasi adalah tenaga kerja. Komputasi memang adalah tenaga kerja. Komputer, banyak pekerjaan hilang. Karena komputer sekarang mengotomatisasi banyak pemrosesan informasi digital yang tidak lagi membutuhkan manusia. Jadi komputer adalah tenaga kerja, dan itu telah menyebar.
Misalnya autonomous driving juga adalah komputer yang melakukan tenaga kerja. Itu juga sudah menyebar. Tetap saja business as usual.
Dwarkesh Patel 01:27:13
Ada mesin yang berpotensi menghasilkan lebih banyak hal seperti itu dengan laju yang lebih cepat. Secara historis, ada contoh perubahan rezim pertumbuhan yang berubah dari 0,2% pertumbuhan ke 2% pertumbuhan. Mesin yang menghasilkan mobil otonom berikutnya dan internet berikutnya dan apa pun itu... mesin itu tampak sangat masuk akal...
Andrej Karpathy 01:27:33
Saya paham dari mana itu datang. Pada saat yang sama, saya merasa orang-orang berasumsi, "kita punya tuhan di dalam kotak, dan sekarang ia bisa melakukan segalanya," padahal tampilannya tidak akan seperti itu. Ia akan bisa melakukan beberapa hal. Ia akan gagal pada beberapa hal lain. Kita akan memasukkannya ke masyarakat secara bertahap, dan pada akhirnya berakhir dengan pola yang sama. Itulah prediksi saya.
Asumsi bahwa kita tiba-tiba punya manusia yang sepenuhnya cerdas, sepenuhnya fleksibel, sepenuhnya umum di dalam kotak, dan bisa mengalokasikannya ke masalah-masalah arbitrer di masyarakat, saya tidak berpikir kita akan mengalami perubahan tak berkesinambungan seperti itu. Saya pikir kita akan sampai pada jenis penyebaran bertahap yang sama di berbagai industri.
Dwarkesh Patel 01:28:14
Dalam percakapan seperti ini, saya sering akhirnya menimbulkan salah paham. Saya tidak suka memakai kata kecerdasan dalam konteks ini. Karena kecerdasan menyiratkan ada satu superintelligence tunggal yang duduk di server dan secara ilahi tahu cara menghasilkan teknologi dan penemuan baru yang memicu ledakan ini. Itu bukan yang saya bayangkan saat membayangkan pertumbuhan 20%. Yang saya bayangkan adalah ratusan juta pikiran seperti manusia yang sangat cerdas, mungkin, atau itu saja yang dibutuhkan.
Tetapi fakta bahwa ada ratusan juta, miliaran, dari mereka, masing-masing secara individual membuat produk baru, dan menemukan cara untuk mengintegrasikan diri mereka ke dalam ekonomi. Jika seorang imigran pintar yang sangat berpengalaman datang ke suatu negara, mereka tidak perlu diberi tahu cara mengintegrasikan diri ke dalam ekonomi. Mereka akan menemukan caranya. Mereka bisa memulai perusahaan, membuat penemuan, dan meningkatkan produktivitas dunia.
Bahkan dalam sistem saat ini pun, ada contoh tempat-tempat dengan pertumbuhan ekonomi 10–20%. Jika ada banyak orang dan modal lebih sedikit dibandingkan jumlah orang, Anda bisa mendapatkan Hong Kong atau Shenzhen atau semacamnya dengan pertumbuhan di atas 10% selama beberapa dekade. Ada banyak orang yang sangat cerdas yang siap memanfaatkan sumber daya dan menjalani periode catch-up ini. Karena kita memiliki diskontinuitas ini, dan saya pikir AI juga bisa serupa.
Andrej Karpathy 01:29:33
Saya paham, tetapi saya tetap merasa Anda mengasumsikan adanya lompatan diskontinu tertentu. Ada semacam pembukaan kunci yang tinggal menunggu untuk kita klaim. Tiba-tiba kita akan memiliki para jenius di pusat data. Saya tetap merasa Anda mengasumsikan semacam lompatan diskontinu tanpa preseden historis yang tidak bisa saya temukan dalam statistik mana pun, dan saya pikir itu mungkin tidak akan terjadi.
Dwarkesh Patel 01:29:52
Maksud saya, Revolusi Industri adalah lompatan seperti itu. Kita beralih dari pertumbuhan 0,2% menjadi 2%. Saya hanya mengatakan bahwa kita akan melihat lompatan lain seperti itu.
Andrej Karpathy 01:30:00
Saya agak skeptis. Sepertinya itu perlu diteliti. Misalnya, beberapa catatan dari sebelum Revolusi Industri tidak terlalu bagus. Saya agak skeptis soal itu, tetapi tidak punya pendapat yang kuat. Anda mengatakan ini adalah satu peristiwa tunggal yang sangat ajaib. Anda juga mengatakan mungkin akan ada peristiwa lain yang persis seperti itu, dan itu akan sangat ajaib. Akan memecahkan paradigma, dan seterusnya.
Dwarkesh Patel 01:30:23
Sebenarnya, hal yang menentukan dari Revolusi Industri adalah bahwa itu tidak terasa ajaib. Jika diperbesar, yang akan Anda lihat pada 1770 atau 1870 bukanlah ada satu penemuan inti. Namun pada saat yang sama, kemajuan berlangsung jauh lebih cepat dan memindahkan ekonomi ke rezim di mana eksponennya 10 kali lebih besar. Saya memperkirakan sesuatu yang serupa pada AI. Saya rasa tidak akan ada satu momen tunggal dengan penemuan yang menentukan.
Andrej Karpathy 01:30:51
Ini adalah kelebihan pasokan yang sedang dibuka. Seperti sumber energi baru. Ada sesuatu yang dibuka—dalam hal ini, semacam kemampuan kognitif—dan ada kelebihan pasokan pekerjaan kognitif yang harus dilakukan.
Dwarkesh Patel 01:31:02
Benar.
Andrej Karpathy 01:31:03
Anda memperkirakan bahwa ketika kelebihan pasokan itu melewati ambang batas, itu akan diisi oleh teknologi baru ini.
Dwarkesh Patel 01:31:06
Mungkin salah satu cara memikirkannya adalah bahwa sepanjang sejarah, banyak pertumbuhan terjadi karena orang memikirkan ide, lalu orang melakukan sesuatu untuk mengeksekusi ide itu dan menghasilkan output yang bernilai. Selama sebagian besar waktu ini, populasi sedang meledak. Itulah yang mendorong pertumbuhan.
Dalam 50 tahun terakhir, orang berargumen bahwa pertumbuhan telah stagnan. Populasi negara maju juga stagnan. Saya pikir kita akan kembali ke pertumbuhan eksponensial populasi yang menyebabkan pertumbuhan super-eksponensial output.
Andrej Karpathy 01:31:37
Sangat sulit untuk mengatakannya. Saya memahami sudut pandang itu. Secara intuitif, saya tidak merasakan sudut pandang itu.
01:32:50 – Evolusi kecerdasan dan budaya
Dwarkesh Patel 01:32:50
Anda merekomendasikan buku Nick Lane. Berdasarkan itu, saya juga merasa itu sangat menarik dan mewawancarainya. Saya punya beberapa pertanyaan tentang cara memikirkan kecerdasan dan sejarah evolusi.
Sekarang setelah Anda meneliti AI selama 20 tahun terakhir, saya bayangkan Anda punya gambaran yang lebih konkret tentang apa itu kecerdasan dan apa yang dibutuhkan untuk mengembangkannya. Hasilnya, apakah Anda lebih terkejut atau kurang terkejut bahwa evolusi begitu saja menemukannya secara spontan?
Andrej Karpathy 01:33:19
Saya sangat menyukai buku-buku Nick Lane. Dalam perjalanan ke sini saya sedang mendengarkan podcast-nya. Tentang kecerdasan dan evolusinya, itu sangat, sangat baru. Saya heran itu bisa berevolusi.
Sangat memikat memikirkan semua dunia yang mungkin ada di luar sana. Misalnya ada seribu planet seperti Bumi dan seperti apa mereka nantinya. Nick Lane datang ke sini dan berbicara tentang beberapa bagian paling awal. Dia memperkirakan bentuk kehidupan yang sangat mirip, secara garis besar, dan pada kebanyakan dari mereka ada hal-hal seperti bakteri. Ada beberapa patahan di sana. Evolusi kecerdasan secara intuitif terasa bagi saya sebagai peristiwa yang seharusnya cukup langka.
Mungkin itu harus didasarkan pada berapa lama sesuatu telah ada. Jika bakteri sudah ada selama 2 miliar tahun dan tidak ada yang terjadi, maka berpindah ke eukariota mungkin cukup sulit. Karena bakteri muncul cukup awal dalam evolusi atau sejarah Bumi. Berapa lama hewan sudah ada? Mungkin beberapa ratus juta tahun, hewan multiseluler yang berlari, merayap, dan sebagainya. Itu mungkin 10% dari umur Bumi. Mungkin pada skala waktu itu, hal itu tidak terlalu sulit. Tetap saja mengejutkan bagi saya bahwa itu berkembang, secara intuitif. Saya mungkin hanya akan memperkirakan bentuk kehidupan seperti hewan melakukan hal-hal seperti hewan. Fakta bahwa Anda bisa mendapatkan sesuatu yang menciptakan dan mengakumulasi budaya serta pengetahuan itu mengejutkan bagi saya.
Dwarkesh Patel 01:34:42
Ada beberapa pertanyaan lanjutan yang menarik. Jika kita menerima sudut pandang Sutton, inti dari kecerdasan adalah kecerdasan hewan... kutipannya adalah, “kalau sudah sampai tupai, Anda sudah mendapatkan sebagian besar AGI.”
Kita mencapai kecerdasan setingkat tupai tepat setelah Ledakan Kambrium 600 juta tahun lalu. Yang tampaknya memicunya adalah Peristiwa Oksigenasi Besar 600 juta tahun sebelumnya. Tetapi begitu itu terjadi, algoritme kecerdasan sudah ada untuk menghasilkan kecerdasan setingkat tupai. Itu menunjukkan bahwa kecerdasan hewan tidaklah se sulit itu. Begitu ada oksigen di lingkungan, Anda memiliki eukariota, dan langsung bisa mendapatkan algoritmenya. Mungkin kebetulan evolusi menemukannya secepat itu, tetapi saya tidak tahu apakah itu menunjukkan bahwa pada akhirnya hal itu cukup sederhana.
Andrej Karpathy 01:35:31
Terlalu sulit untuk mengatakan apa pun dengan semua ini. Anda bisa sedikit mendasarkannya pada berapa lama sesuatu telah ada, atau seberapa lama sesuatu terasa seperti terhambat. Nick Lane sangat bagus dalam menjelaskan bottleneck yang sangat jelas ini pada bakteri dan archaea. Selama 2 miliar tahun, tidak ada yang terjadi. Ada keragaman biokimia yang luar biasa, tetapi tidak ada yang tumbuh menjadi hewan. Dua miliar tahun.
Seperti yang Anda tunjukkan, saya tidak tahu apakah kita melihat sesuatu yang benar-benar setara seperti itu pada hewan dan kecerdasan. Kita juga bisa melihatnya dari seberapa sering kita mengira jenis kecerdasan tertentu muncul secara independen.
Dwarkesh Patel 01:36:07
Itu hal yang sangat bagus untuk diselidiki.
Andrej Karpathy 01:36:09
Satu pemikiran tentang itu. Ada kecerdasan hominid, lalu ada kecerdasan burung. Gagak dan sebagainya, sangat cerdas, tetapi bagian-bagian otak mereka cukup berbeda, dan kita tidak punya banyak kesamaan. Itu sedikit menandakan kecerdasan muncul beberapa kali. Dalam kasus itu, Anda akan memperkirakan itu lebih sering terjadi.
Dwarkesh Patel 01:36:32
Tamu sebelumnya, Gwern dan Carl Shulman, membuat poin yang sangat menarik tentang itu. Sudut pandang mereka adalah bahwa algoritme yang dapat diskalakan yang dimiliki manusia dan primata juga muncul pada burung, dan mungkin juga pada waktu-waktu lain. Tetapi manusia menemukan ceruk evolusioner yang juga dapat mengimbangi peningkatan marginal kecerdasan dan mencapai peningkatan kecerdasan itu dengan algoritme otak yang dapat diskalakan.
Misalnya, jika burung memiliki otak yang lebih besar, mereka akan jatuh dari langit. Mereka sangat cerdas dibandingkan ukuran otaknya, tetapi mereka tidak berada dalam ceruk yang mengimbangi otak yang menjadi lebih besar. Mungkin yang sangat cerdas... bisa jadi mirip.
Andrej Karpathy 01:37:28
Seperti lumba-lumba?
Dwarkesh Patel 01:37:28
Tepat, manusia, kita memiliki tangan yang memberi imbalan pada belajar menggunakan alat. Kita bisa mengeksternalisasi pencernaan, dan menyalurkan lebih banyak energi ke otak, dan itu memulai flywheel.
Andrej Karpathy 01:38:02
Hal-hal yang harus dikerjakan juga. Jika saya seekor lumba-lumba, saya rasa itu akan jauh lebih sulit. Bagaimana cara menyalakan api? Di dalam air, semesta hal-hal yang bisa dilakukan di dalam air mungkin lebih kecil daripada yang bisa dilakukan di darat, secara kimia.
Saya setuju dengan sudut pandang tentang ceruk-ceruk ini dan apa yang sedang diberi insentif. Saya tetap menganggapnya ajaib. Kita akan memperkirakan hal-hal akan mentok pada hewan dengan otot yang lebih besar. Melewati gerbang menuju kecerdasan adalah titik transisi yang benar-benar memikat.
Dwarkesh Patel 01:38:28
Cara Gwern mengungkapkannya adalah bahwa alasan hal itu begitu sulit adalah karena garis pemisahnya sangat tipis antara sesuatu yang begitu penting untuk dipelajari sehingga tidak layak menyuling rangkaian yang tepat itu langsung kembali ke DNA, dan sesuatu yang sama sekali tidak cukup penting untuk dipelajari. Harus ada sesuatu yang memberi insentif untuk membangun algoritme yang belajar sepanjang hidup.
Andrej Karpathy 01:38:55
Harus ada semacam adaptabilitas yang diberi insentif. Anda menginginkan lingkungan yang tidak dapat diprediksi sehingga evolusi tidak bisa memanggang algoritme itu ke dalam bobot. Banyak hewan sudah terprogram dari awal dalam pengertian ini. Manusia, saat lahir, harus mencari tahu saat test time. Anda menginginkan lingkungan yang berubah sangat cepat, di mana Anda tidak bisa meramalkan apa yang akan bekerja dengan baik. Untuk mengetahuinya saat test time, Anda menciptakan kecerdasan.
Dwarkesh Patel 01:39:28
Ada tulisan blog yang menarik yang mengatakan bahwa alasan Quintin Pope tidak mengharapkan lompatan tajam adalah karena manusia memang mengalami lompatan tajam. Tampaknya kita sudah memiliki arsitektur kognitif yang kita miliki sekarang sejak 60 ribu tahun lalu. Lalu 10 ribu tahun lalu, revolusi pertanian, modernitas. Apa yang terjadi selama 50 ribu tahun itu? Kita harus membangun kerangka budaya ini sehingga kita bisa mengakumulasi pengetahuan lintas generasi.
Ini adalah kemampuan yang dalam cara kita melatih AI tersedia secara gratis. Dalam banyak kasus, itu benar-benar didistilasi. Ketika Anda melatih ulang model, model-model itu bisa dilatih satu sama lain, bisa dilatih pada korpus pra-pelatihan yang sama, dan tidak benar-benar harus mulai dari nol secara harfiah. Butuh waktu lama bagi manusia untuk menjalankan loop budaya ini, tetapi dalam cara kita melatih LLM, ada kesan bahwa itu begitu saja tersedia secara gratis.
Andrej Karpathy 01:39:45
Ya dan tidak. Karena LLM sebenarnya tidak memiliki padanan budaya. Mungkin kita memberi mereka terlalu banyak dan memberi insentif agar mereka tidak membangunnya atau semacamnya. Tetapi penemuan budaya, penemuan catatan tertulis, saling mengirim memo, saya rasa saat ini tidak ada padanannya pada LLM. Saya ingin mengatakan bahwa LLM saat ini benar-benar belum memiliki budaya dan itu salah satu hambatannya.
Dwarkesh Patel 01:40:05
Bisakah Anda memberi gambaran seperti apa budaya LLM itu?
Andrej Karpathy 01:40:09
Dalam kasus paling sederhana, itu akan menjadi scratchpad raksasa yang bisa diedit oleh LLM. Dan ketika mereka membaca sesuatu atau membantu sebuah tugas, mereka sedang mengedit scratchpad itu untuk diri mereka sendiri. Mengapa LLM tidak bisa menulis buku untuk LLM lain? Itu akan keren. Mengapa LLM lain tidak bisa membaca buku dari LLM ini lalu terinspirasi olehnya, atau terkejut olehnya, atau melakukan hal-hal semacam itu? Tidak ada padanan untuk sebagian dari hal-hal ini.
Dwarkesh Patel 01:40:29
Menarik. Kapan Anda memperkirakan hal semacam itu akan mulai terjadi? Juga, bagaimana dengan sistem multi-agen dan semacam peradaban serta budaya AI yang independen?
Andrej Karpathy 01:40:40
Ada dua gagasan kuat di ranah multi-agen, tetapi keduanya belum benar-benar diperdebatkan atau semacamnya. Yang pertama adalah budaya dan LLM memiliki repertoar pengetahuan yang terus bertambah untuk tujuannya sendiri.
Yang kedua jauh lebih mirip dengan gagasan kuat tentang self-play. Menurut saya itu sangat kuat. Evolusi memiliki kecerdasan dan banyak kompetisi yang mendorong evolusi. Secara lebih algoritmis di AlphaGo, AlphaGo bermain melawan dirinya sendiri dan begitulah cara ia belajar menjadi sangat baik dalam Go. Belum ada padanan self-play untuk LLM, tetapi saya memperkirakan itu juga akan ada. Belum ada yang melakukannya. Misalnya, mengapa LLM tidak bisa membuat banyak masalah yang dipelajari LLM lain untuk dipecahkan? Lalu LLM itu selalu berusaha menyediakan masalah yang makin sulit, dan hal-hal seperti itu.
Ada banyak cara untuk mengorganisasikannya. Ini adalah area penelitian, tetapi saya belum melihat siapa pun membuat argumen yang meyakinkan untuk dua peningkatan multi-agen ini. Kita sebagian besar masih berada di ranah agen individual tunggal, tetapi itu akan berubah. Di ranah budaya juga, saya ingin memasukkan organisasi. Itu juga belum saya lihat secara meyakinkan. Itulah alasan kita masih berada di tahap awal.
Dwarkesh Patel 01:41:53
Bisakah Anda mengidentifikasi bottleneck utama yang menghalangi jenis kolaborasi antar-LLM ini?
Andrej Karpathy 01:41:59
Mungkin cara saya mengungkapkannya adalah, beberapa analogi ini seharusnya berhasil dan seharusnya tidak berhasil, tetapi entah bagaimana, secara mengejutkan, berhasil. Banyak dari model yang lebih kecil, atau model yang lebih bodoh, secara mengejutkan menyerupai anak TK, atau murid sekolah dasar, atau murid SMA. Entah bagaimana, kita masih belum cukup lulus sehingga mereka bisa mengambil alih. Claude Code atau Codex saya, mereka masih terasa seperti siswa kelas dasar. Saya tahu mereka bisa menyelesaikan kuis tingkat doktoral, tetapi secara kognitif mereka tetap terasa seperti anak TK atau murid sekolah dasar.
Saya tidak berpikir mereka bisa menciptakan budaya. Karena mereka masih anak-anak. Anak-anak ajaib. Mereka memiliki ingatan sempurna atas semua hal ini. Mereka dapat secara meyakinkan membuat segala macam slop yang tampak sangat bagus. Tetapi saya tetap berpikir mereka sebenarnya tidak tahu apa yang mereka lakukan dan kita masih belum benar-benar memiliki kognisi di seluruh kotak centang kecil yang masih perlu kita kumpulkan.
01:42:55 Mengapa mobil swakemudi butuh waktu begitu lama
Dwarkesh Patel 01:42:55
Anda pernah mengatakan bahwa Anda memimpin autonomous driving di Tesla dari 2017 hingga 2022. Dan Anda melihat langsung kemajuan dari demo yang keren hingga kini ribuan mobil benar-benar melaju secara otonom. Mengapa itu memakan waktu 10 tahun? Apa yang terjadi selama waktu itu?
Andrej Karpathy 01:43:11
Satu hal yang hampir segera ingin saya bantah adalah bahwa ini bahkan belum mendekati selesai. Dalam banyak cara yang akan saya bahas. Autonomous driving sangat menarik karena di sanalah saya jelas mendapatkan banyak intuisi saya, karena saya menghabiskan 5 tahun untuk itu. Ada sejarah lengkap autonomous driving, dengan demo pertama yang berasal sejak 1980-an. Anda bisa melihat demo CMU tahun 1986. Ada truk yang mengemudi sendiri di jalan.
Lompat ke depan. Saat saya bergabung dengan Tesla, saya sempat melihat demo Waymo yang sangat awal. Pada dasarnya pada 2014 atau sekitar itu, yakni 10 tahun lalu, demo itu memberi saya perjalanan yang sempurna. Jadi, perjalanan Waymo yang sempurna 10 tahun lalu. Itu karena saya punya teman yang bekerja di sana dan dia mengajak saya berkeliling Palo Alto. Saya pikir itu sudah sangat dekat dan ternyata tetap butuh waktu lama.
Untuk jenis tugas dan pekerjaan tertentu, ada jurang demo-ke-produk yang sangat besar, di mana demo sangat mudah tetapi produk sangat sulit. Terutama untuk sesuatu seperti autonomous driving, ketika biaya kegagalan begitu tinggi. Banyak industri, tugas, dan pekerjaan mungkin tidak memiliki sifat itu, tetapi ketika sifat itu ada, itu jelas memperpanjang timeline.
Misalnya, dalam rekayasa perangkat lunak, saya rasa properti itu memang ada. Untuk banyak hal dalam vibe coding, mungkin tidak. Tetapi jika Anda menulis kode tingkat produksi yang nyata, properti itu harus ada. Karena jenis kesalahan apa pun bisa berujung pada kerentanan keamanan atau semacamnya. Nomor identitas pribadi jutaan atau ratusan juta orang bisa bocor, misalnya. Jadi dalam perangkat lunak, orang harus berhati-hati, seperti dalam self-driving. Dalam self-driving, jika terjadi kesalahan, orang bisa terluka. Konsekuensinya bisa lebih buruk. Tetapi dalam perangkat lunak, skalanya nyaris tak terbatas. Seberapa mengerikannya sesuatu itu bisa terjadi.
Saya pikir mereka berbagi properti itu. Tentang mengapa butuh waktu lama, cara memikirkannya adalah sebagai march of nines. Setiap angka 9 tunggal adalah sejumlah pekerjaan yang tetap. Setiap angka 9 adalah jumlah pekerjaan yang sama. Jika Anda punya demo dan sesuatu bekerja 90% dari waktu, itu baru angka 9 pertama. Lalu Anda butuh angka 9 kedua, ketiga, keempat, kelima. Saat saya berada di Tesla sekitar lima tahun, kami mungkin melewati tiga angka 9 atau dua angka 9. Saya tidak tahu persisnya, tetapi ada beberapa angka 9 dari berbagai iterasi. Dan kami masih butuh lebih banyak angka 9.
Itulah mengapa hal-hal seperti ini memakan waktu sangat lama. Itu jelas sangat membentuk cara pandang saya, melihat sesuatu yang tadinya hanya demo. Saya tidak terlalu terkesan oleh demo. Setiap kali saya melihat demo apa pun, saya sangat tidak terkesan. Kalau itu demo yang dibuat seseorang khusus untuk dipamerkan, itu bahkan lebih buruk. Kalau saya bisa berinteraksi dengannya, sedikit lebih baik. Tetapi bahkan saat itu pun, itu belum selesai. Anda butuh produk nyata. Saat bersentuhan dengan dunia nyata, Anda akan menghadapi semua tantangan ini, dan ada banyak kantong perilaku berbeda yang perlu ditambal.
Kita akan melihat semua ini terungkap. Ini adalah march of nines. Setiap angka 9 itu konstan. Demo itu memberi semangat. Tetapi tetap dibutuhkan pekerjaan dalam jumlah sangat besar. Jika Anda tidak sedang melakukan vibe coding, ini adalah domain keselamatan yang penting, jadi semuanya terasa baik dan menyenangkan. Itu juga alasan mengapa dari sudut pandang itu garis waktu saya makin menguat.
Dwarkesh Patel 01:46:25
Sangat menarik mendengar Anda mengatakan itu, bahwa jaminan keselamatan yang dibutuhkan dalam perangkat lunak tidak jauh berbeda dari self-driving. Orang sering mengatakan bahwa alasan self-driving memakan waktu begitu lama adalah karena biaya kegagalannya sangat tinggi. Manusia rata-rata membuat kesalahan setiap 400.000 mil atau setiap tujuh tahun. Jika Anda harus merilis agen coding yang setidaknya tidak boleh membuat kesalahan selama tujuh tahun, itu akan jauh lebih sulit untuk diterapkan.
Tetapi poin Anda adalah, jika ia membuat kesalahan coding yang fatal, maka itu seperti merusak sistem penting setiap tujuh tahun...
Andrej Karpathy 01:46:56
Sangat mudah dilakukan.
Dwarkesh Patel 01:46:57
Sebenarnya, dalam hal waktu jam nyata, itu akan jauh lebih sedikit dari tujuh tahun. Karena ia terus-menerus mengeluarkan kode seperti itu. Dalam hal token mungkin tujuh tahun. Tetapi dalam hal waktu jam nyata...
Andrej Karpathy 01:47:09
Dalam beberapa hal, itu masalah yang jauh lebih sulit. Self-driving hanyalah satu dari ribuan hal yang dilakukan manusia. Hampir seperti satu vertikal tunggal, menurut saya. Sedangkan ketika kita berbicara tentang rekayasa perangkat lunak secara umum, itu jauh lebih... ada jauh lebih banyak permukaannya.
Dwarkesh Patel 01:47:20
Ada keberatan lain yang sering diajukan orang terhadap analogi itu, yaitu bahwa dalam self-driving, sebagian besar waktu dihabiskan untuk menyelesaikan masalah memiliki persepsi dasar yang andal, membangun representasi, dan memiliki model dengan semacam akal sehat sehingga ketika melihat sesuatu yang agak di luar distribusi, ia bisa melakukan generalisasi. Jika seseorang melambaikan tangan di jalan seperti ini, Anda tidak perlu melatihnya khusus untuk itu. Ia akan punya semacam pemahaman tentang bagaimana merespons hal seperti itu.
Hal-hal ini sekarang didapatkan secara gratis dari LLM atau VLM masa kini, sehingga Anda tidak perlu lagi menyelesaikan masalah representasi yang sangat dasar ini. Jadi menerapkan AI di berbagai domain sekarang akan lebih seperti menerapkan mobil self-driving saat ini ke kota lain, yang memang sulit, tetapi bukan pekerjaan 10 tahun.
Andrej Karpathy 01:48:07
Saya tidak 100% yakin bahwa saya sepenuhnya setuju dengan itu. Saya tidak tahu seberapa banyak yang benar-benar kita dapatkan secara gratis. Masih ada banyak celah dalam memahami apa sebenarnya yang kita dapatkan. Kita jelas mendapatkan kecerdasan yang lebih dapat digeneralisasi dari satu entitas, sedangkan self-driving adalah tugas yang sangat khusus. Dalam arti tertentu, membangun tugas yang sangat khusus mungkin jauh lebih sulit. Karena itu tidak muncul dari sesuatu yang lebih umum yang Anda lakukan pada skala besar, kalau itu masuk akal.
Tetapi analoginya tetap tidak sepenuhnya cocok. Karena LLM masih cukup banyak membuat kesalahan dan masih punya banyak celah yang perlu diisi. Saya tidak berpikir kita benar-benar mendapatkan generalisasi ajaib langsung dari kotaknya, dalam arti tertentu.
Aspek lain yang ingin saya kembali bahas adalah bahwa mobil self-driving pun belum mendekati selesai. Deploy-nya masih sangat minimal. Bahkan Waymo pun hanya punya sangat sedikit mobil. Secara kasar, saya rasa alasan mereka melakukan itu adalah karena itu belum ekonomis. Mereka membangun sesuatu yang hidup di masa depan. Mereka harus menarik masa depan itu ke depan, tetapi harus membangunnya dengan cara yang tidak ekonomis. Bukan hanya biaya marjinal untuk mobil-mobil itu serta operasional dan pemeliharaannya, tetapi juga belanja modal keseluruhannya, semua jenis biaya ini ada. Membuatnya ekonomis masih akan menjadi perjuangan berat bagi mereka.
Juga, ketika Anda melihat mobil-mobil ini tidak ada yang mengemudi, tetapi saya sebenarnya merasa itu sedikit menipu. Karena ada pusat teleoperasi yang sangat canggih dengan manusia yang berada di dalam loop dengan mobil-mobil ini dalam beberapa cara. Saya tidak punya gambaran lengkapnya, tetapi ada lebih banyak manusia di dalam loop daripada yang diperkirakan orang. Ada orang di suatu tempat yang masuk lewat sinar dari langit. Saya tidak tahu apakah mereka sepenuhnya berada di dalam loop untuk mengemudi. Kadang-kadang iya, tetapi mereka jelas terlibat dan ada manusia di sana. Dalam arti tertentu, kita sebenarnya belum menghilangkan manusianya, kita hanya memindahkan mereka ke tempat yang tidak bisa Anda lihat.
Saya pikir masih akan ada sejumlah pekerjaan untuk benar-benar mewujudkan self-driving. Tetapi saya setuju dengan poin Anda tentang berpindah dari satu lingkungan ke lingkungan lain. Masih ada tantangan untuk benar-benar mewujudkan self-driving. Tetapi saya setuju bahwa itu jelas sudah melewati ambang di mana ia terasa nyata, kecuali kalau ternyata memang benar-benar diteleoperasikan. Misalnya, Waymo tidak bisa pergi ke semua bagian kota yang berbeda. Dugaan saya, itu adalah bagian kota tempat mereka tidak mendapatkan sinyal yang bagus. Bagaimanapun, saya tidak tahu apa-apa tentang stack mereka. Saya cuma mengarang.
Dwarkesh Patel 01:50:23
Anda memimpin self-driving di Tesla selama lima tahun.
Andrej Karpathy 01:50:27
Maaf, saya tidak tahu apa-apa tentang detail Waymo. Meski begitu, saya suka Waymo dan selalu memakainya. Saya hanya merasa orang kadang-kadang agak terlalu naif tentang kemajuan, dan menurut saya masih ada pekerjaan dalam jumlah sangat besar. Tesla menurut saya mengambil pendekatan yang jauh lebih scalable, dan timnya bekerja dengan sangat baik. Saya punya rekam jejak dalam membuat prediksi tentang bagaimana ini akan berjalan. Waymo memang mendapat start awal karena mereka bisa mengemas banyak sensor. Tetapi saya rasa Tesla mengambil strategi yang lebih scalable, dan hasil akhirnya akan terlihat jauh lebih mirip dengan itu. Jadi ini masih harus terungkap, dan itu belum terjadi. Tetapi saya juga tidak ingin membicarakan self-driving sebagai sesuatu yang memakan waktu 10 tahun. Karena itu bahkan belum selesai, kalau itu masuk akal.
Dwarkesh Patel 01:51:08
Karena pertama, awalnya adalah 1980, bukan 10 tahun lalu, lalu kedua, akhirnya bahkan belum ada di sini.
Andrej Karpathy 01:51:14
Akhirnya bahkan belum dekat. Karena ketika kita berbicara tentang self-driving, biasanya menurut saya yang dimaksud adalah self-driving pada skala besar. Orang-orang tidak perlu mendapatkan SIM, dan seterusnya.
Dwarkesh Patel 01:51:22
Saya ingin menawarkan dua cara berbeda yang mungkin menjadi analogi. Alasan pertanyaan ini sangat menarik adalah karena seberapa cepat AI dapat diterapkan, dan seberapa bernilai AI pada tahap awal, berpotensi menjadi pertanyaan paling penting di dunia saat ini. Jika Anda mencoba memodelkan seperti apa tahun 2030, ini adalah pertanyaan yang perlu Anda pahami sampai tingkat tertentu.
Hal lain yang bisa Anda pikirkan adalah, pertama, kendaraan otonom punya persyaratan latensi. Saya sama sekali tidak tahu model nyatanya seperti apa, tetapi anggap saja semacam puluhan juta parameter. Ini bukan batasan yang dibutuhkan untuk pekerjaan pengetahuan dengan menggunakan LLM. Mungkin untuk penggunaan komputer dan hal-hal semacam itu, ya.
Tetapi hal besar lainnya, dan mungkin yang lebih penting, adalah pertanyaan belanja modal ini. Ya, ada biaya tambahan untuk menyediakan salinan tambahan dari model, tetapi biaya operasional per sesi cukup rendah dan, bergantung pada bagaimana scaling inferensi berkembang dan sebagainya, Anda bisa mengamortisasi biaya AI ke training run itu sendiri. Namun jelas ini tidak seperti harus membuat mobil yang benar-benar baru hanya untuk menyediakan satu instance model lagi. Jadi ekonomi untuk penyebaran yang lebih luas jauh lebih menguntungkan.
Andrej Karpathy 01:52:37
Saya rasa itu benar. Jika kita tetap berada di ranah bit, bit itu sejuta kali lebih mudah daripada menyentuh dunia fisik. Itu pasti saya akui. Bit sepenuhnya dapat diubah, dan bisa disusun ulang secara arbitrer dengan kecepatan yang sangat tinggi. Saya juga akan mengharapkan adaptasi yang jauh lebih cepat di industri. Yang pertama tadi apa?
Dwarkesh Patel 01:52:59
Persyaratan latensi dan implikasinya terhadap ukuran model?
Andrej Karpathy 01:53:02
Saya rasa itu kurang lebih benar. Juga, jika Anda berbicara tentang pekerjaan pengetahuan dalam skala besar, secara praktis saya rasa akan ada beberapa persyaratan latensi. Karena Anda harus membangun jumlah komputasi yang sangat besar dan kemudian menyediakannya.
Aspek terakhir yang ingin saya bicarakan dengan sangat singkat adalah semua hal lainnya. Bagaimana masyarakat memandang itu? Apa implikasi hukumnya? Bagaimana itu bekerja secara hukum? Bagaimana itu bekerja dari sisi asuransi? Apa lapisan-lapisan dan aspek-aspek semacam itu? Apa padanan dari orang-orang yang meletakkan kerucut di atas Waymo? Akan ada padanan untuk semua hal itu. Jadi saya merasa kendaraan otonom adalah analogi yang sangat baik untuk meminjam berbagai hal. Apa padanan kerucut di dalam mobil? Apa padanan dari operator teleoperasi tersembunyi, dan semua aspeknya?
Dwarkesh Patel 01:53:53
Apa pandangan Anda tentang pembangunan AI saat ini? Dalam satu atau dua tahun kita akan meningkatkan komputasi yang tersedia di dunia sampai 10 kali lipat, dan pada akhir dekade lebih dari 100 kali lipat. Jika penggunaan AI akan lebih rendah daripada yang diprediksi secara naif oleh sebagian orang, apakah itu berarti kita sedang overbuild komputasi atau itu pertanyaan yang terpisah?
Andrej Karpathy 01:54:15
Seperti yang terjadi pada kereta api.
Dwarkesh Patel 01:54:18
Apa, maaf?
Andrej Karpathy 01:54:19
Kereta api, atau?
Dwarkesh Patel 01:54:20
Ya, benar.
Andrej Karpathy 01:54:21
Ya. Ada preseden sejarah. Atau apakah itu industri telekomunikasi? Mengemas lebih dulu internet yang baru datang 10 tahun kemudian, dan menciptakan seluruh gelembung di industri telekomunikasi pada akhir 1990-an.
Saya paham saya terdengar sangat pesimistis di sini. Sebenarnya saya optimistis. Saya rasa ini akan berhasil. Saya rasa ini bisa dikelola. Satu-satunya alasan saya terdengar pesimistis adalah karena jika Anda pergi ke timeline Twitter saya, Anda akan melihat semua hal ini yang menurut saya tidak masuk akal. Ada banyak alasan mengapa itu ada. Sejujurnya, sebagian besar hanya soal pendanaan. Struktur insentif. Banyak yang mungkin soal pendanaan. Banyak yang hanya soal perhatian, dan mengubah perhatian di internet menjadi uang, hal-hal seperti itu. Banyak hal sedang terjadi, dan saya hanya bereaksi terhadap itu.
Tetapi secara keseluruhan saya tetap sangat optimistis terhadap teknologinya. Kita akan menyelesaikan semua hal ini. Sudah ada kemajuan yang cepat dalam jumlah besar. Saya tidak tahu apakah ada overbuild. Menurut pemahaman saya, kita akan mampu menyerap apa yang sedang dibangun. Misalnya, hal-hal seperti Claude Code atau OpenAI Codex bahkan belum ada satu tahun lalu. Benar, kan? Ini adalah teknologi ajaib yang sebelumnya tidak ada. Akan ada jumlah permintaan yang sangat besar, seperti yang sudah kita lihat dari ChatGPT dan sebagainya.
Jadi saya tidak tahu apakah ada overbuild. Saya hanya bereaksi terhadap beberapa timeline yang sangat cepat yang terus salah diucapkan orang. Saya telah bekerja di bidang AI selama 15 tahun, dan saya sudah sering mendengar orang-orang yang sangat bereputasi baik selalu salah memahami masalah ini. Saya ingin ini dikalibrasi dengan benar, dan sebagian dari ini juga memiliki implikasi geopolitik bersama pertanyaan-pertanyaan seperti ini dan hal-hal semacam itu. Saya tidak ingin orang membuat kesalahan dalam ranah tersebut. Saya ingin kita berpijak pada realitas tentang apa itu teknologi ini dan apa yang bukan.
01:56:20 - Masa depan pendidikan
Dwarkesh Patel 01:56:20
Mari bicara tentang pendidikan dan Eureka. Salah satu hal yang bisa Anda lakukan adalah memulai laboratorium AI lain lalu mencoba menyelesaikan masalah-masalah itu. Saya penasaran apa yang sedang Anda lakukan sekarang, dan mengapa itu bukan riset AI itu sendiri.
Andrej Karpathy 01:56:33
Cara saya mengungkapkannya adalah bahwa saya merasakan tingkat determinisme tertentu tentang hal-hal yang sedang dilakukan laboratorium AI. Saya merasa saya bisa membantu di sana, tetapi saya tidak yakin saya akan memperbaikinya secara unik. Ketakutan pribadi terbesar saya adalah banyak dari hal ini akan terjadi dari sisi kemanusiaan, dan manusia akan kehilangan daya karena itu. Saya peduli bukan hanya tentang semua bola Dyson yang akan kita bangun, tetapi juga tentang apa yang terjadi pada manusia, dan AI akan membangunnya dengan cara yang sepenuhnya otonom. Saya ingin manusia baik-baik saja di masa depan.
Saya merasa saya bisa menambahkan nilai yang jauh lebih unik di sana dibandingkan sekadar perbaikan inkremental di laboratorium frontier. Yang paling saya takutkan adalah sesuatu seperti yang digambarkan dalam film Wall-E atau Idiocracy. Posisi manusia di sisi semua hal ini. Saya ingin manusia menjadi jauh, jauh lebih baik di masa depan ini. Bagi saya, ini melalui pendidikanlah Anda bisa mencapainya.
Dwarkesh Patel 01:57:35
Jadi apa yang Anda lakukan di sana?
Andrej Karpathy 01:57:36
Cara termudah saya menjelaskannya adalah bahwa kami sedang mencoba membangun Starfleet Academy. Saya tidak tahu apakah Anda pernah menonton Star Trek.
Dwarkesh Patel 01:57:44
Belum.
Andrej Karpathy 01:57:44
Starfleet Academy adalah institusi elite untuk teknologi frontier, pembangunan kapal antariksa, dan meluluskan para kadet yang akan menjadi pilot kapal-kapal ini, dan sebagainya. Jadi saya membayangkan semacam sekolah yang merupakan institusi elite untuk pengetahuan teknis dan sangat mutakhir serta terbaik.
Dwarkesh Patel 01:58:05
Kategori pertanyaan yang saya miliki untuk Anda adalah menjelaskan bagaimana cara mengajarkan konten teknis atau ilmiah dengan baik. Karena Anda adalah salah satu master dunia dalam hal itu. Saya penasaran apa yang Anda pikirkan tentang konten yang sudah Anda terbitkan di YouTube, dan juga tentang Eureka, serta bagaimana memikirkannya jika memang berbeda.
Andrej Karpathy 01:58:25
Soal Eureka, satu hal yang sangat memikat bagi saya tentang pendidikan adalah bahwa saya pikir pendidikan akan berubah cukup fundamental jika AI hadir di sisinya. Sampai tingkat tertentu, itu harus dirombak ulang dan diubah.
Saya masih merasa kita ini berada cukup di tahap awal. Akan ada banyak orang yang punya LLM dan mencoba melakukan hal-hal yang jelas dengan mengajukan pertanyaan. Lakukan semua hal dasar yang sekarang bisa dilakukan lewat prompting. Itu membantu, tetapi bagi saya masih terasa agak seperti slop. Saya ingin melakukannya dengan benar, dan saya rasa kemampuannya belum ada untuk apa yang saya inginkan. Yang saya inginkan adalah pengalaman tutor yang sesungguhnya.
Contoh yang menonjol di benak saya adalah saya baru-baru ini belajar bahasa Korea. Jadi, pembelajaran bahasa. Saya melewati tahap belajar bahasa Korea sendiri di internet. Saya melewati tahap menjadi bagian dari kelas kecil bersama sekelompok orang lain yang mendengarkan bahasa Korea di Korea, dan itu benar-benar lucu. Ada guru dan sekitar 10 orang yang mendengarkan bahasa Korea. Lalu saya beralih ke tutor satu lawan satu.
Yang menurut saya memikat adalah, saya rasa saya punya tutor yang sangat bagus, dan saya hanya memikirkan apa yang tutor ini lakukan untuk saya, betapa luar biasanya pengalaman itu, dan betapa tingginya standar untuk sesuatu yang pada akhirnya ingin saya bangun. Dari percakapan yang sangat singkat, dia langsung memahami di mana posisi saya sebagai murid, apa yang saya tahu dan tidak tahu. Dia bisa menjelajahi jenis pertanyaan atau hal yang tepat untuk memahami model dunia saya. Tidak ada LLM saat ini yang akan melakukan itu untuk Anda 100%, bahkan belum mendekati. Tetapi tutor akan melakukannya jika mereka bagus. Setelah dia paham, dia benar-benar memberi saya semua yang saya butuhkan pada potongan kemampuan saya saat ini. Anda harus selalu ditantang secara tepat. Anda tidak boleh dihadapkan pada sesuatu yang terlalu sulit atau terlalu sepele, dan tutor sangat terampil dalam memberi Anda hal yang pas.
Saya merasa satu-satunya batasan dalam belajar adalah saya sendiri. Informasi yang sempurna selalu tersedia. Saya adalah satu-satunya batasannya. Rasanya menyenangkan. Karena saya adalah satu-satunya hambatan yang ada. Bukan karena pengetahuan itu tidak bisa ditemukan atau tidak dijelaskan dengan benar, dan sebagainya. Hanya kemampuan saya untuk menghafal dan hal-hal seperti itu. Inilah yang saya inginkan untuk orang-orang.
Dwarkesh Patel 02:00:27
Bagaimana Anda mengotomatisasi itu?
Andrej Karpathy 02:00:29
Itu pertanyaan yang sangat bagus. Dengan kemampuan saat ini, ya tidak bisa. Itulah mengapa saya merasa ini belum waktu yang tepat untuk benar-benar membangun tutor AI seperti itu. Saya tetap menganggapnya produk yang berguna, dan banyak orang akan membuatnya, tetapi standarnya terlalu tinggi dan kemampuannya belum sampai ke sana. Bahkan hari ini, saya ingin mengatakan ChatGPT adalah produk pendidikan yang sangat bernilai. Tetapi bagi saya, melihat betapa tingginya standar itu saat saya bersama dia sangatlah memikat. Saya hampir merasa seperti tidak ada cara untuk membuat ini.
Dwarkesh Patel 02:01:02
Tapi Anda sedang membangunnya, kan?
Andrej Karpathy 02:01:03
Siapa pun yang pernah punya tutor yang sangat bagus pasti berpikir, "bagaimana cara membangun ini?" Saya sedang menunggu kemampuan itu.
Saya pernah melakukan konsultasi AI untuk computer vision. Dalam banyak kasus, nilai yang saya bawa ke perusahaan adalah memberi tahu mereka untuk tidak menggunakan AI. Saya adalah pakar AI, mereka menjelaskan masalahnya, dan saya berkata, "jangan gunakan AI." Itulah nilai tambah saya. Saya merasakan hal yang sama sekarang dalam pendidikan. Untuk apa yang saya bayangkan, waktunya belum tepat, tetapi waktunya akan datang. Untuk saat ini, saya sedang membangun sesuatu yang tampilannya sedikit lebih tradisional dengan komponen fisik dan digital, dan semacamnya. Tetapi jelas seperti apa ini seharusnya terlihat di masa depan.
Dwarkesh Patel 02:01:43
Sejauh yang ingin Anda ceritakan, apakah ada sesuatu yang Anda harap dirilis tahun ini atau tahun depan?
Andrej Karpathy 02:01:49
Saya sedang membuat kursus pertama. Saya benar-benar ingin membuat kursus yang sangat, sangat bagus. Tujuan mutakhir yang jelas untuk didatangi orang untuk belajar, dalam hal ini AI. Karena itu yang saya kuasai, itu adalah produk pertama yang sangat bagus untuk benar-benar unggul di sana. Jadi itulah yang saya buat. Nanochat yang Anda sebut singkat itu adalah proyek capstone dari kelas yang sedang saya buat, LLM101N. Itu bagian yang sangat besar darinya. Tetapi sekarang saya harus membuat banyak langkah perantara, lalu mempekerjakan tim kecil TA, dan membangun seluruh kursus.
Satu hal lain yang ingin saya katakan adalah bahwa dalam banyak kasus, ketika orang memikirkan pendidikan, menurut saya mereka lebih banyak memikirkan apa yang saya sebut komponen yang lebih lembut dari penyebaran pengetahuan. Saya memikirkan sesuatu yang sangat sulit dan teknis. Menurut saya, pendidikan adalah proses teknis yang sangat sulit untuk membangun ramp menuju pengetahuan. Menurut saya, nanochat adalah ramp menuju pengetahuan, karena sangat sederhana. Itu seluruh stack yang disederhanakan sepenuhnya. Jika Anda memberikan artefak ini kepada seseorang dan mereka menelitinya, mereka sedang mempelajari sangat banyak hal. Saya memberi apa yang saya sebut banyak eureka per detik, yaitu pemahaman per detik. Itulah yang saya inginkan, banyak eureka per detik. Jadi bagi saya, ini adalah masalah teknis tentang bagaimana kita membuat ramp ini sangat efisien. Agar orang tidak pernah benar-benar buntu dan semuanya tidak selalu terlalu sulit atau terlalu sepele, dan mereka memiliki materi yang tepat untuk terus maju.
Dwarkesh Patel 02:03:25
Yang Anda bayangkan dalam jangka pendek adalah, alih-alih tutor bisa menjelajahi pemahaman Anda, jika Anda punya kesadaran diri yang cukup untuk menjelajahi diri sendiri, Anda tidak akan pernah benar-benar buntu. Di antara berbicara dengan TA atau berbicara dengan LLM dan melihat implementasi referensi, Anda bisa menemukan jawaban yang tepat. Sejauh ini tampaknya otomatisasi atau AI bukan bagian yang penting. Sejauh ini, alpha besar di sini adalah kemampuan Anda menjelaskan AI yang dikodifikasikan ke dalam materi sumber kelas. Itulah pada dasarnya apa itu kursus.
Andrej Karpathy 02:04:00
Anda harus selalu menyesuaikan diri dengan kemampuan yang ada di industri. Banyak orang hanya akan mengejar hal-hal seperti bertanya ke ChatGPT, dan sebagainya. Tetapi sekarang juga, misalnya, kalau Anda pergi ke ChatGPT dan memintanya mengajarkan AI, tidak mungkin. Dia akan memberi slop. AI saat ini sama sekali tidak akan menulis nanochat. Tetapi nanochat adalah titik tengah yang benar-benar berguna. Saya bekerja sama dengan AI untuk membuat semua materi ini, jadi AI tetap sangat membantu secara mendasar.
Dulu saya membuat CS231n di Stanford, yang menurut saya adalah kelas deep learning pertama di Stanford, dan itu sangat populer. Perbedaan antara membuat 231n saat itu dan membuat LLM101N sekarang cukup mencolok. Saya merasa benar-benar diberdayakan oleh LLM sebagaimana adanya sekarang, tetapi saya sangat banyak berada di dalam loop. Mereka membantu membuat materi, dan saya bergerak jauh lebih cepat. Mereka mengerjakan banyak hal yang membosankan, dan seterusnya. Saya merasa mengembangkan kursus jauh lebih cepat, dan memang disuntik LLM, tetapi mereka belum sampai ke titik bisa secara kreatif membuat kontennya. Saya masih harus ada di sana untuk melakukan itu. Bagian sulitnya adalah selalu menyesuaikan diri dengan apa yang memang sudah ada.
Dwarkesh Patel 02:05:04
Ketika Anda membayangkan apa yang akan tersedia lewat Eureka beberapa tahun lagi, tampaknya hambatan besar adalah menemukan Karpathy-Karpathy di tiap bidang yang bisa mengubah pemahaman mereka menjadi ramp-ramp seperti ini.
Andrej Karpathy 02:05:18
Itu akan berubah seiring waktu. Saat ini, itu akan berupa merekrut pengajar untuk bekerja bergandengan tangan dengan AI dan tim manusia. Mungkin untuk membuat kursus-kursus mutakhir. Seiring waktu, mungkin sebagian TA bisa berupa AI. Saya rasa Anda bisa mengambil semua materi kursus lalu memberikan TA otomatis yang sangat bagus untuk murid. Saat mereka punya pertanyaan yang lebih dasar atau semacam itu. Tetapi saya rasa tetap akan dibutuhkan pengajar untuk arsitektur keseluruhan kursus dan memastikan itu masuk akal. Jadi saya melihat progres bagaimana ini akan berevolusi. Mungkin pada suatu saat di masa depan saya tidak terlalu berguna lagi dan AI melakukan sebagian besar desain jauh lebih baik daripada yang bisa saya lakukan. Tetapi saya tetap berpikir itu akan butuh waktu untuk berkembang.
Dwarkesh Patel 02:05:59
Apakah Anda membayangkan orang-orang yang memiliki keahlian di bidang lain akan berkontribusi pada kursus, atau mengingat pemahaman Anda tentang bagaimana Anda ingin mengajar, apakah menurut Anda sangat penting bagi visi ini bahwa Andalah yang harus merancang materinya? Seperti Sal Khan yang menarasikan sendiri semua video Khan Academy. Apakah Anda membayangkan sesuatu seperti itu?
Andrej Karpathy 02:06:20
Tidak, saya akan merekrut staf pengajar. Karena ada domain-domain di mana saya bukan ahlinya. Itu pada akhirnya adalah satu-satunya cara untuk memberikan pengalaman terbaik bagi siswa. Saya memperkirakan akan merekrut staf pengajar, tetapi saya mungkin akan tetap di AI untuk sementara waktu. Untuk kemampuan saat ini, saya memikirkan sesuatu yang mungkin lebih tradisional daripada yang dibayangkan orang.
Ketika membuat Starfleet Academy, saya mungkin membayangkan sebuah institusi fisik, dan di bawahnya ada lapisan penawaran digital. Itu bukan pengalaman terbaik yang didapat ketika seseorang datang secara fisik penuh waktu dan kami mengerjakan materi dari awal sampai akhir serta memastikan Anda benar-benar memahaminya. Itulah penawaran fisik. Penawaran digital adalah banyak hal di internet dan mungkin semacam asisten LLM. Itu sedikit lebih gimmicky dan merupakan lapisan di bawahnya, tetapi setidaknya dapat diakses oleh 8 miliar orang.
Dwarkesh Patel 02:07:08
Pada dasarnya, Anda tampak seperti sedang menciptakan ulang universitas dari prinsip pertama untuk alat-alat yang tersedia saat ini, dan memilih orang-orang yang punya motivasi serta minat untuk benar-benar terlibat dengan materinya.
Andrej Karpathy 02:07:26
Bukan hanya pendidikan, tetapi juga harus banyak ada retraining. Saya ingin membantu di sana. Karena pekerjaan kemungkinan akan banyak berubah. Sebagai contoh, banyak orang saat ini sedang mencoba meningkatkan keterampilan, terutama di AI. Saya pikir ini kursus yang sangat bagus untuk diajarkan dalam konteks itu. Dari sisi motivasi, motivasi pra-AGI cukup sederhana untuk dipecahkan. Karena orang ingin menghasilkan uang. Inilah cara menghasilkan uang di industri saat ini. Pasca-AGI bisa jauh lebih menarik. Karena jika semuanya otomatis dan tidak ada pekerjaan untuk siapa pun, mengapa seseorang harus pergi ke sekolah?
Saya sering mengatakan bahwa pendidikan pra-AGI itu berguna. Pendidikan pasca-AGI itu menyenangkan. Mirip dengan cara orang pergi ke gym hari ini. Kita tidak membutuhkan kekuatan fisik mereka untuk memindahkan benda berat, karena kita punya mesin untuk melakukannya. Mereka tetap pergi ke gym. Mengapa mereka pergi ke gym? Karena itu menyenangkan, sehat, dan punya perut six-pack membuat Anda terlihat keren. Ada sesuatu yang menarik bagi orang-orang untuk melakukannya. Dalam makna yang sangat dalam, psikologis, dan evolusioner bagi umat manusia. Pendidikan akan berkembang dengan cara yang sama. Orang akan pergi ke sekolah seperti mereka pergi ke gym.
Saat ini, banyak orang tidak belajar. Karena belajar itu sulit. Mereka mental dari materi. Sebagian orang bisa melewati hambatan itu, tetapi bagi kebanyakan orang itu sulit. Itu adalah masalah teknis yang bisa diselesaikan. Apa yang dilakukan tutor saya untuk saya ketika saya belajar bahasa Korea adalah masalah teknis yang bisa diselesaikan. Itu bisa ditangani dan dibangun, dan seseorang harus membangunnya. Itu akan membuat mempelajari sesuatu menjadi sepele dan diinginkan, dan orang akan melakukannya untuk bersenang-senang. Karena itu sepele. Jika Anda punya tutor seperti itu untuk potongan pengetahuan apa pun, akan jauh lebih mudah mempelajari apa saja, dan orang akan melakukannya. Mereka akan melakukannya karena alasan yang sama seperti pergi ke gym.
Dwarkesh Patel 02:09:17
Itu terdengar berbeda... Jadi pasca-AGI, Anda menggunakan ini untuk hiburan atau pengembangan diri. Tetapi tadi juga terdengar seperti ada visi bahwa pendidikan ini berkaitan dengan menjaga umat manusia tetap mengendalikan AI. Itu terdengar berbeda. Bagi sebagian orang ini hiburan, tetapi bagi sebagian lain ini pemberdayaan? Bagaimana Anda memikirkannya?
Andrej Karpathy 02:09:41
Saya pikir itu pada akhirnya agak seperti permainan yang kalah, jika itu masuk akal. Dalam jangka panjang, ya. Mungkin jangka panjang yang lebih panjang daripada yang dipikirkan kebanyakan orang di industri. Itu permainan yang kalah. Orang-orang berpikir mereka bisa melangkah sejauh itu, dan kita baru nyaris menggores permukaan sejauh mana manusia bisa berkembang. Itu hanya karena orang mental dari materi yang terlalu mudah atau terlalu sulit. Orang bisa melangkah jauh lebih jauh. Semua orang akan bisa berbicara lima bahasa. Karena kenapa tidak? Itu akan terlalu sepele. Semua orang akan mengetahui seluruh kurikulum dasar tingkat sarjana, dan seterusnya.
Dwarkesh Patel 02:10:18
Sekarang saya mengerti visinya, dan itu sangat menarik. Budaya gym adalah analogi yang sempurna. Saya rasa 100 tahun lalu hampir tak ada orang yang berotot. Tak ada orang yang secara sukarela bisa bench press dua atau tiga plate. Sekarang itu sangat umum karena adanya gagasan tentang berlatih secara sistematis, angkat beban di gym, atau berlatih secara sistematis agar bisa lari maraton. Itu adalah kemampuan yang sebagian besar manusia tidak akan miliki secara spontan. Anda membayangkan hal serupa untuk pembelajaran di banyak domain lain, dengan jauh lebih intens, lebih dalam, dan lebih cepat.
Andrej Karpathy 02:10:54
Tepat sekali. Saya sedikit bertaruh pada keabadian sifat manusia. Saya rasa akan tetap diinginkan untuk melakukan semua hal ini, dan orang akan tetap mengaguminya seperti yang telah mereka lakukan selama ribuan tahun. Ini akan terus benar. Ada beberapa bukti historis tentang itu. Misalnya, jika Anda melihat kaum bangsawan, atau Yunani kuno, atau hal-hal semacam itu, setiap kali kita memiliki lingkungan kantong kecil yang dalam arti tertentu sudah pasca-AGI, orang menghabiskan banyak waktu untuk berkembang dengan cara tertentu, baik secara fisik maupun kognitif. Saya merasa cukup optimistis tentang prospek itu.
Jika ini salah dan saya keliru, dan kita berakhir dalam masa depan seperti WALL-E atau Idiocracy, saya bahkan tidak peduli apakah ada bola Dyson. Itu hasil yang mengerikan. Saya sungguh peduli pada umat manusia. Semua orang harus menjadi manusia super dalam arti tertentu.
Dwarkesh Patel 02:11:52
Itu tetap... itu pada dasarnya dunia seperti world of culture, kan? Pada dasarnya ini dunia di mana Anda tidak akan benar-benar bisa mengubah lintasan teknologi, atau memengaruhi keputusan hanya melalui tenaga kerja atau kognisi Anda sendiri. Mungkin Anda bisa memengaruhi keputusan karena AI meminta persetujuan Anda, tetapi bukan karena saya menemukan sesuatu atau memikirkan desain baru sehingga saya benar-benar memengaruhi masa depan.
Andrej Karpathy 02:12:21
Mungkin. Saya pikir akan ada masa transisi di mana jika kita memahami banyak hal, kita akan tetap berada dalam loop dan bisa memajukan keadaan. Dalam jangka panjang, itu mungkin akan hilang. Bisa jadi akan ada olahraga tentang seperti apa powerlifting di era kognitif. Mungkin akan ada orang-orang yang melangkah sangat ekstrem untuk benar-benar menciptakan Olimpiade tentang benar-benar mengetahui banyak hal. Jika Anda punya tutor AI yang sempurna, mungkin Anda bisa melangkah sangat jauh. Saya merasa para jenius saat ini baru nyaris menggores permukaan dari apa yang bisa dilakukan pikiran manusia.
Dwarkesh Patel 02:12:59
Saya suka visi ini. Saya juga merasa saya adalah orang yang paling punya product-market fit untuk ini. Karena pekerjaan saya mencakup harus mempelajari topik yang berbeda setiap minggu, dan saya sangat antusias soal itu.
Andrej Karpathy 02:13:17
Saya juga mirip. Banyak orang, misalnya, membenci sekolah dan ingin keluar dari sana. Saya justru sangat suka sekolah. Saya suka mempelajari banyak hal, dan seterusnya. Saya ingin tetap di sekolah. Saya terus tinggal sampai program PhD, lalu setelah mereka tidak mengizinkan saya tinggal lebih lama lagi, saya masuk ke industri. Kurang lebih, saya suka belajar, bahkan demi belajar itu sendiri, tetapi saya juga suka belajar karena itu adalah bentuk pemberdayaan dan itu berguna serta produktif.
Dwarkesh Patel 02:13:39
Anda juga menyampaikan poin yang halus dan saya ingin menuliskannya dengan jelas. Dengan apa yang sejauh ini terjadi pada kursus online, mengapa itu belum membuat setiap manusia bisa mengetahui segalanya? Itu hanya terlalu membebani motivasi. Karena tidak ada jalur yang jelas dan terlalu mudah untuk mentok. Sebaliknya, jika Anda punya ini—sesuatu seperti tutor manusia yang benar-benar bagus—maka dari sudut pandang motivasi itu akan menjadi semacam unlock.
Andrej Karpathy 02:14:10
Saya rasa begitu. Tersingkir dari materi terasa tidak enak. Rasanya buruk. Saat Anda mencurahkan waktu untuk sesuatu tetapi tidak membuahkan hasil, atau ketika apa yang Anda dapatkan terlalu mudah atau terlalu sulit sehingga menjadi sepenuhnya membosankan, Anda mendapat ganjaran negatif. Saat dilakukan dengan benar, belajar itu terasa menyenangkan. Mencapai titik itu adalah masalah teknis. Untuk beberapa waktu, ini akan menjadi kolaborasi AI plus manusia, dan pada titik tertentu, mungkin hanya AI.
Dwarkesh Patel 02:14:36
Bolehkah saya bertanya beberapa hal tentang mengajar dengan baik? Jika Anda harus memberi saran kepada pendidik lain di bidang lain yang membuat Anda penasaran untuk membuat jenis tutorial YouTube seperti yang Anda buat. Mungkin sangat menarik untuk membicarakan domain di mana Anda tidak bisa menguji pemahaman teknis seseorang dengan menyuruh mereka menulis kode atau semacamnya. Saran apa yang akan Anda berikan?
Andrej Karpathy 02:14:58
Itu topik yang cukup luas. Mungkin ada 10-20 tips dan trik yang saya lakukan secara setengah sadar. Tetapi banyak dari ini berasal dari latar belakang fisika saya. Saya benar-benar, benar-benar menikmati latar belakang fisika saya. Ada cerita panjang tentang mengapa semua orang seharusnya belajar fisika dalam pendidikan awal. Karena pendidikan awal bukan tentang menumpuk pengetahuan atau hafalan untuk pekerjaan nanti di industri. Ini tentang menyalakan otak. Fisika paling baik dalam menyalakan otak. Karena beberapa hal yang dilatih pada otak dalam fisika nantinya menjadi sangat berharga.
Gagasan membangun model dan abstraksi, serta memahami bahwa ada pendekatan orde pertama yang menjelaskan sebagian besar sistem, tetapi mungkin ada atau tidak ada suku orde kedua, ketiga, dan keempat. Gagasan bahwa Anda sedang mengamati sistem yang sangat bising, tetapi ada frekuensi-frekuensi mendasar yang bisa Anda abstraksikan. Ketika seorang fisikawan masuk ke kelas dan berkata, "Mari kita asumsikan ada sapi berbentuk bola," semua orang menertawakannya, tetapi ini luar biasa. Dalam banyak hal, Anda bisa mendekati sapi sebagai bola, jadi ini adalah cara berpikir yang hebat dan sangat bisa digeneralisasi di seluruh industri.
Sebagai contoh, ada buku yang sangat bagus, Scale. Itu buku yang ditulis oleh seorang fisikawan tentang biologi. Mungkin ini juga buku yang saya rekomendasikan untuk dibaca. Anda bisa mendapatkan pendekatan yang sangat menarik tentang hewan dan membuat grafik hukum penskalaan hewan. Anda bisa melihat detak jantung mereka dan hal-hal semacam itu, dan semuanya cocok dengan ukuran hewan dan semacamnya. Anda bisa membicarakan hewan dari sisi volumenya. Anda bisa membicarakan pembuangan panasnya, karena pembuangan panas meningkat menurut luas permukaan, jadi meningkat secara kuadrat. Tetapi produksi atau generasi panas meningkat secara kubik. Jadi saya merasa para fisikawan memiliki semua alat kognitif yang tepat untuk mendekati pemecahan masalah di dunia.
Karena pelatihan itu, saya selalu berusaha menemukan suku orde pertama atau kedua dari segala sesuatu. Saat mengamati suatu sistem atau apa pun, ada jalinan ide atau pengetahuan di pikiran saya. Saya berusaha menemukan apa yang penting. Apa komponen orde pertamanya? Bagaimana saya bisa menyederhanakannya? Bagaimana saya bisa mendapatkan hal paling sederhana yang menunjukkannya, benar-benar menunjukkannya, lalu menambahkan suku-suku lainnya?
Contoh salah satu repositori saya yang menurut saya menunjukkan hal itu dengan baik disebut micrograd. Saya tidak tahu apakah Anda familier dengannya. micrograd adalah 100 baris kode yang menunjukkan backpropagation. Anda bisa membangun jaringan saraf dari operasi sederhana seperti penjumlahan dan perkalian. Balok Lego dari jaringan saraf. Anda membangun grafik komputasi dan melakukan forward pass serta backward pass untuk mendapatkan gradien. Nah, ini adalah inti dari semua pelatihan jaringan saraf.
Jadi micrograd adalah 100 baris kode Python yang cukup mudah diinterpretasikan, dan bisa melakukan forward dan backward untuk jaringan saraf arbitrer, tetapi tidak efisien. Jadi micrograd, 100 baris Python ini, adalah semua yang Anda butuhkan untuk memahami bagaimana jaringan saraf dilatih. Semua yang lain hanyalah efisiensi. Ada sangat banyak pekerjaan untuk mendapatkan efisiensi. Anda memerlukan tensor, batching, stride, membuat kernel, mengatur perpindahan memori dengan benar, dan seterusnya. Semuanya itu, secara kasar, hanya efisiensi. Tetapi potongan intelektual inti dari pelatihan jaringan saraf adalah micrograd. Seratus baris. Mudah dipahami. Itu adalah penerapan rekursif dari aturan rantai untuk menurunkan gradien. Itu memungkinkan Anda mengoptimalkan fungsi diferensiabel arbitrer.
Jadi saya suka menemukan suku-suku orde kecil seperti ini, lalu menyajikannya dan mengeksplorasinya. Saya merasa pendidikan adalah hal yang paling menarik secara intelektual. Karena Anda punya jalinan pemahaman, dan Anda berusaha menyusunnya dengan cara yang membentuk tanjakan di mana semuanya hanya bergantung pada hal sebelumnya. Saya merasa mengurai jalinan pengetahuan ini, sebagai kerja kognitif, sangat menarik secara intelektual. Secara pribadi saya suka melakukannya, tetapi ada semacam ketertarikan untuk berusaha menata sesuatu dengan cara tertentu. Mungkin itu membantu saya.
Dwarkesh Patel 02:18:41
Itu juga membuat pengalaman belajar jauh lebih memotivasi. Tutorial Anda tentang transformer dimulai dengan bigram, yang secara harfiah adalah tabel lookup, "di sini ada kata sekarang, atau di sini ada kata sebelumnya, di sini ada kata berikutnya." Itu benar-benar hanya tabel lookup.
Andrej Karpathy 02:18:58
Itulah esensinya, ya.
Dwarkesh Patel 02:18:59
Memulai dari tabel lookup lalu menuju transformer adalah cara yang sangat hebat. Setiap potongannya punya motivasi. Mengapa menambahkan itu? Mengapa menambahkan yang berikutnya? Anda bisa saja menghafal rumus attention, tetapi yang penting adalah memahami mengapa setiap bagian relevan, masalah apa yang diselesaikannya.
Andrej Karpathy 02:19:13
Tunjukkan rasa sakitnya sebelum menunjukkan solusinya, dan betapa cerdasnya itu? Saya ingin membawa murid melalui perkembangan itu. Ada banyak hal kecil lain yang membuatnya baik, menarik, dan memikat. Selalu beri murid prompt.
Ada banyak hal kecil lain yang penting seperti ini yang dilakukan pendidik yang baik. Bagaimana Anda akan menyelesaikannya? Saya tidak akan memberi solusi sebelum saya mendengar tebakan Anda. Itu akan sia-sia. Itu sedikit... saya tidak ingin berkata kasar, tetapi tidak memberi Anda kesempatan untuk mencobanya sendiri sebelum saya menyajikan solusi adalah perilaku yang buruk terhadap Anda.
Dwarkesh Patel 02:19:51
Karena ketika Anda berusaha memikirkannya sendiri, Anda mendapatkan pemahaman yang lebih baik tentang seperti apa ruang tindakannya, apa tujuannya, lalu mengapa hanya tindakan ini yang memenuhi tujuan itu.
Andrej Karpathy 02:20:03
Anda punya kesempatan untuk mencoba sendiri, dan ketika saya memberi solusi, Anda jadi menghargainya. Itu memaksimalkan jumlah pengetahuan per fakta baru yang ditambahkan.
Dwarkesh Patel 02:20:11
Mengapa pada dasarnya orang-orang yang benar-benar ahli di bidangnya sendiri sering kali buruk dalam menjelaskannya kepada seseorang yang sedang mempelajarinya?
Andrej Karpathy 02:20:24
Keahlian dan kutukan pengetahuan. Ini fenomena nyata, dan saya juga menderita karenanya sebanyak saya berusaha. Anda menganggap hal-hal tertentu sudah jelas, dan Anda tidak bisa menempatkan diri pada posisi orang baru yang baru saja mulai. Ini sangat umum dan juga terjadi pada saya.
Satu hal yang sangat membantu. Misalnya, seseorang baru-baru ini mencoba menunjukkan makalah biologi kepada saya, dan saya langsung punya begitu banyak pertanyaan yang buruk. Yang saya lakukan adalah menggunakan ChatGPT, memasukkan makalah itu ke context window, lalu mengajukan pertanyaan. Itu menyelesaikan beberapa hal sederhana. Lalu saya membagikan thread itu kepada orang yang menulis makalah tersebut atau yang melakukan pekerjaan itu. Saya merasa jika mereka bisa melihat pertanyaan-pertanyaan bodoh yang saya punya, itu bisa membantu mereka menjelaskan dengan lebih baik di masa depan.
Untuk materi saya, saya akan sangat senang jika orang-orang membagikan percakapan bodoh mereka dengan ChatGPT tentang hal-hal yang saya buat. Karena itu benar-benar membantu saya menempatkan diri kembali pada posisi seseorang yang baru memulai.
Dwarkesh Patel 02:21:19
Ada trik lain yang bekerja dengan sangat mengejutkan. Ketika seseorang menulis makalah, posting blog, atau memberi presentasi, narasi atau transkrip tentang bagaimana mereka akan menjelaskannya saat makan siang jauh lebih mudah dipahami, dan bahkan sebenarnya lebih akurat dan ilmiah. Dalam 100% kasus. Maksud saya, orang punya bias untuk menjelaskan sesuatu dengan cara yang paling abstrak dan penuh jargon, serta berdehem selama empat paragraf sebelum menjelaskan ide intinya. Tapi ketika berkomunikasi empat mata dengan seseorang, ada sesuatu yang membuat mereka langsung mengatakan apa yang sebenarnya ingin mereka katakan.
Andrej Karpathy 02:22:07
Langsung saja bicara. Saya melihat tweet itu, dan menurut saya itu sangat bagus. Saya membagikannya ke banyak orang. Saya sudah berkali-kali, berkali-kali merasakan hal ini.
Contoh yang paling menonjol adalah saya ingat saat masih S3 dan melakukan riset. Saya membaca makalah seseorang dan berusaha memahami apa yang sebenarnya mereka lakukan. Lalu belakangan saya bertemu mereka di konferensi sambil minum bir, dan saya bertanya, "Jadi makalah ini sebenarnya sedang melakukan apa? Makalah ini tentang apa?"
Mereka lalu akan mengucapkan tiga kalimat yang menangkap esensi makalah itu dengan sempurna dan sepenuhnya menyampaikan idenya. Dan saya jadi tidak perlu membaca makalahnya. Hanya saat duduk di meja sambil minum bir atau semacamnya, mereka akan bilang, "Oh ya, makalahnya cuma begini, ambil ide ini, ambil ide itu, lalu coba eksperimen ini dan itu." Mereka punya cara yang sempurna untuk menyampaikannya secara percakapan. Kenapa itu bukan abstraknya?
Dwarkesh Patel 02:22:51
Tepat sekali. Ini muncul dari sudut pandang bagaimana seseorang yang mencoba menjelaskan ide seharusnya merumuskannya dengan lebih baik. Sebagai pelajar, apa saran Anda untuk pelajar lain jika tidak ada Karpathy yang menjelaskan ide tersebut? Jika Anda sedang membaca makalah atau buku dari seseorang, strategi apa yang Anda gunakan untuk mempelajari materi yang Anda minati di bidang yang bukan keahlian Anda?
Andrej Karpathy 02:23:20
Saya tidak tahu apakah saya punya tips dan trik yang benar-benar unik, sejujurnya. Ini proses yang menyakitkan. Satu hal yang selalu cukup membantu bagi saya—saya pernah membuat tweet kecil tentang ini—adalah belajar sesuai kebutuhan itu cukup bagus. Belajar depth-first. Belajar depth-first, sesuai kebutuhan—Anda sedang mencoba menyelesaikan proyek tertentu yang akan memberi imbalan—dan sedikit bergantian dengan belajar breadth-first, yaitu seperti, "Oh, mari ambil 101 apa pun, dan ini semua hal yang mungkin akan dibutuhkan di sini." Itulah yang dilakukan banyak sekolah—mereka melakukan pembelajaran breadth-first, seperti "Oh, percayalah, nanti Anda akan membutuhkan ini" dan semacamnya. Oke, saya percaya. Saya akan mempelajarinya karena akan dibutuhkan. Tapi saya suka jenis belajar yang memberi imbalan dari benar-benar mengerjakan sesuatu, dan belajar sesuai kebutuhan.
Hal lain yang menurut saya sangat membantu. Ini sedikit sisi pendidikan yang lebih altruistis, tetapi menjelaskan sesuatu kepada orang lain adalah cara yang indah untuk mempelajari sesuatu dengan lebih dalam. Ini selalu terjadi pada saya. Mungkin juga terjadi pada orang lain. Karena kalau Anda tidak benar-benar memahami sesuatu, Anda akan sadar bahwa Anda tidak bisa menjelaskannya. Anda berusaha lalu berkata, "Oh, saya tidak memahami ini." Sangat menyebalkan harus berhadapan dengan itu. Anda bisa kembali dan memastikan apakah Anda benar-benar memahaminya. Anda mengisi celah-celah pemahaman seperti ini. Itu memaksa Anda untuk menghadapinya. Memaksa Anda untuk menyelaraskannya.
Saya suka menjelaskan ulang sesuatu, dan orang lain juga seharusnya melakukan itu. Karena dengan begitu Anda harus memanipulasi pengetahuan itu, dan benar-benar memahami apa yang Anda katakan saat menjelaskannya.
Dwarkesh Patel 02:24:48
Itu tulisan penutup yang pas sekali. Andrej, ini luar biasa.
Andrej Karpathy 02:24:51
Terima kasih.
1 komentar
Opini Hacker News
Menurut saya, penting melihat perkembangan AI sebagai semacam "deretan angka 9". Menambahkan tiap 9% berikutnya membutuhkan upaya yang sama besarnya. Kalau kita sudah membuat versi demo 90%, maka setelah itu kita harus menumpuk 9% kedua, 9% ketiga, dan seterusnya. Saya juga berkali-kali mengalami proses berulang seperti ini selama 5 tahun bekerja di Tesla. Jalan yang harus ditempuh masih panjang. Perkembangan AI sering terlihat seolah kemampuannya meningkat secara eksponensial pada benchmark tertentu yang tetap, tetapi tingkat kesulitan untuk naik ke tahap berikutnya juga meningkat secara eksponensial, jadi dalam jangka panjang terlihat seperti perbaikan yang linear
Setelah melihat wawancara Rich Sutton baru-baru ini, saya merasa AGI bukan sekadar soal menambahkan 9% lagi. Pewawancara berasumsi bahwa pemahaman bahasa harus memiliki model dunia, tetapi Sutton langsung menolak asumsi itu. Saya rasa saya bisa setuju dengan sikap skeptis tersebut
Cerita ini mengingatkan saya pada pepatah lama tentang maraton. Katanya maraton terdiri dari dua bagian: 20 mil pertama, lalu 10 km terakhir yang dijalani saat tubuh sedang berada dalam kondisi paling sakit dan lelah seumur hidup
Saya suka analogi dari penulisnya. Tetapi mulai dari titik tertentu, AI sendiri akan mulai membantu kemajuannya, dan inilah yang secara mendasar membedakannya dari ML lama yang spesifik domain atau sistem lain. Karena alasan ini, saya berharap akan ada percepatan tajam dalam 2 tahun ke depan
Saya juga sering bercanda bahwa saya menyelesaikan 90% pertama dari pekerjaan, lalu lanjut ke 90% berikutnya
Cara berpikir seperti ini bisa diterapkan di banyak tempat. Mirip yang disebut efisiensi Pareto, atau aturan 80/20, di mana 20% usaha menghasilkan 80% dari keseluruhan pekerjaan. Tetapi sebagian besar waktu justru habis untuk menuntaskan 20% sisanya. Prinsip ini berlaku berulang kali. Belakangan ini gejala seperti ini juga menonjol di bidang IT. Bergerak cepat dan bereksperimen memang bagus untuk sebagian besar rentang pekerjaan, tetapi dalam proses itu banyak masalah menumpuk dan pada akhirnya seseorang perlu membereskan dan meninjaunya. Masalah-masalah kecil itu berkumpul menjadi masalah besar. Bahkan dengan uptime sistem 99,9%, tetap ada 9 jam downtime per tahun, dan 1 juta kasus dari 1 miliar kejadian bukanlah skala yang bisa diabaikan. Berkat skalabilitas teknologi, bidang ini tumbuh cepat, tetapi pada saat yang sama sisi gelapnya juga membesar. Keterampilan di atas rata-rata bisa dicapai cukup mudah hanya dengan usaha, tetapi kemampuan seseorang di bidang tertentu bisa jadi sebenarnya masih jauh dari level master. Seperti orang yang punya 100 juta dolar sebenarnya lebih dekat kekayaannya ke tunawisma daripada ke miliarder, intuisi kita memang bersifat melengkung
Setiap kali peneliti AI dan ilmuwan komputer mulai membandingkan otak manusia, AI, dan komputer, saya merasa agak aneh. Saya jadi bertanya-tanya kenapa kami yang hanya belajar ilmu komputer merasa punya pengetahuan yang cukup tentang biologi, neurosains, evolusi, dan sebagainya. Diskusi seperti ini memang menarik, tetapi di satu sisi saya juga berpikir, "jangan lupa kita sedang mendengarkan dua lulusan CS bicara soal neurosains"
Saya rasa pembicaraan seperti ini beserta istilahnya sendiri sebaiknya dihapus saja dari bidang AI. Ini hanya menimbulkan kebingungan tanpa akhir bagi publik. Hakikat LLM sebenarnya cuma melatih matriks untuk memprediksi token berikutnya. Konsep itu sendiri sudah cukup untuk menjelaskannya tanpa harus membawa-bawa AGI, Roko's basilisk, atau kesadaran manusia
Kalau mau menjawab kenapa asumsi seperti itu muncul, jawabannya adalah "kesombongan"
Sebenarnya kalau dipikir secara logis, ada lelucon tentang memulai dari "otak berbentuk bola sempurna tanpa gesekan"
Saya juga dulu sering membuat perbandingan seperti itu saat masa sarjana, dan pada akhirnya kita bertumpu pada model konseptual bahwa kalau otak melakukan X, mungkin komputer juga melakukan X yang sekilas mirip, atau mungkin bisa mereproduksi X lewat langkah-langkah seperti Y dan Z. Tetapi setelah memahami bahwa otak adalah mesin kimia yang luar biasa kompleks, saya jadi lebih skeptis terhadap perbandingan semacam itu
AI dan neurosains memang punya banyak irisan, terutama di kalangan peneliti generasi lama. Misalnya, pembimbing Karpathy, Fei-Fei Li, meneliti penglihatan pada otak kucing sebelum beralih ke computer vision; Demis Hassabis punya gelar doktor di computational neuroscience; Geoff Hinton juga belajar psikologi. Konferensi Reinforcement Learning and Decision Making (RLDM) menghubungkan reinforcement learning dan neurosains agar para ahli dari kedua bidang bisa berinteraksi. Dalam praktiknya, rata-rata peneliti AI kemungkinan tahu jauh lebih banyak tentang otak dibanding mahasiswa ilmu komputer biasa, meski mungkin tetap belum cukup mendalam untuk melakukan riset di bidang itu
Jika ada keterbatasan mendasar pada LLM/AI modern, itu adalah bahwa mereka dilatih terutama dengan fokus pada data yang terabstraksi untuk meniru prefrontal cortex manusia yang menangani penalaran logis. Namun penilaian manusia yang sebenarnya dibentuk oleh aktivitas sistem limbik yang berpusat pada emosi dan intuisi. Artinya, dalam banyak kasus kita "melakukan sesuatu dulu sebelum tahu alasannya", lalu setelah tindakan itu prefrontal cortex menyusun ceritanya. Akibatnya, LLM pada dasarnya hanya meniru sebagian bentuk aktivitas saraf dari posisi yang sama sekali berbeda dengan cara manusia memproses realitas
Saya bersedia mempertaruhkan seluruh harta saya bahwa AGI tidak akan muncul dalam masa hidup siapa pun yang sedang membaca pesan ini sekarang. Bahkan termasuk kehidupan pembaca masa depan yang mungkin akan membaca tulisan ini nanti. Pertanyaan yang benar-benar menarik adalah bagaimana taruhan ini bisa dibuktikan nantinya
Saya penasaran alasan spesifik kenapa Anda berpikir begitu. Setiap hari saat membaca Hacker News, saya merasa kebanjiran prediksi soal AGI yang dilontarkan tanpa logika serius, jadi saya bingung. Saya benar-benar tidak tahu apa yang akan terjadi
Agar taruhan itu benar-benar berlaku, Anda harus memasang uang sungguhan di pasar prediksi seperti Polymarket. Tapi sebelumnya tetap perlu ada kesepakatan soal definisi AGI yang konkret. Kalau lawan mendefinisikannya dengan cara yang menguntungkan dirinya, taruhan itu jadi tak punya peluang menang
Kalau benar-benar ingin mempertaruhkan aset sendiri, karena itu transaksi yang hampir mustahil dicairkan, secara realistis jawabannya adalah menaruhnya di pasar prediksi. Di Polymarket ada banyak taruhan terkait AGI
Mungkin lebih realistis untuk langsung short saham Nvidia
Ini komentar yang menyarankan penggunaan escrow (sistem penitipan dana antara pihak-pihak terkait)
Saya juga ingin menambahkan satu hal: saya rasa kita masih belum punya pemahaman bahkan pada tingkat skematis tentang "apa itu kecerdasan dan bagaimana cara kerjanya". Bahkan hubungan antara kesadaran dan kecerdasan pun masih tidak jelas. Dalam situasi seperti ini, diskusi tentang AGI atau AI, bahkan prediksinya sekalipun, menjadi sangat lemah landasannya. Mendefinisikan kecerdasan buatan saat kita sendiri belum tahu apa itu kecerdasan terasa kontradiktif
Alasan kenapa mendefinisikan kecerdasan atau kesadaran begitu sulit adalah karena kita sepenuhnya bergantung pada satu sampel saja (manusia), lalu masih menimpanya dengan mistisisme yang tidak berdasar. Bacaan terkait: https://bower.sh/who-will-understand-consciousness
Saya sangat merasakan bagian ini. Kita bahkan belum bisa memodelkan kesadaran hewan invertebrata, dan juga belum punya teori yang layak tentang "pikiran". Pada akhirnya AI hanya berpura-pura seolah memahami, sekadar meniru, dan menurut saya masih jauh dari kecerdasan yang nyata
Jika transkrip wawancara itu akurat, Karpathy tidak mengatakan di mana pun dalam wawancara ini bahwa AGI akan datang dalam 10 tahun, dan juga tidak membuat klaim spesifik tentang kapan AGI akan tiba. Judul dari Patel jadi terkesan menyesatkan karena berbeda dari isi sebenarnya
Jika membandingkan vibe coding dengan fitur autocomplete, model LLM saat ini punya banyak cacat kognitif. Misalnya, mereka terlalu terlatih pada pola umum penulisan kode sehingga terus salah paham pada pendekatan yang tidak saya ambil. Dan mengetik satu per satu apa yang saya inginkan dalam bahasa Inggris terasa terlalu merepotkan, sementara kalau saya pergi ke lokasi kode yang diinginkan lalu mengetik beberapa huruf saja, autocomplete langsung bisa menyarankan kode. Sementara itu model justru membuat codebase jadi terlalu kompleks, terus memakai kode yang tidak perlu dan API lama, jadi secara keseluruhan saya tidak yakin apakah benar-benar membantu
Sepertinya bahkan di masa depan saat tingkat pengangguran sudah mencapai 50%, kita masih akan tetap berdebat apakah ini benar-benar AGI
Saya merasa aneh bahwa AGI dijadikan tujuan. Istilah AI sendiri juga tidak akurat dan tidak sesuai dengan hakikatnya. LLM bukan kecerdasan buatan, dan bahkan LLM yang sangat besar pun tetap bukan. Meski begitu, language model tetaplah teknologi yang sangat berguna dan berpotensi revolusioner. Menyebut LLM sebagai AI sekaligus merupakan bentuk penilaian yang berlebihan dan juga meremehkan nilainya. Tidak perlu kecewa hanya karena ini bukan kecerdasan buatan; teknologinya tetap luar biasa
Sekarang ketika Nvidia telah menjadi perusahaan dengan kapitalisasi pasar terbesar, diskusi nyata tentang AGI justru tenggelam di bawah "kereta hype" modal yang sangat besar. Sebagian besar valuasi perusahaan terkait didasarkan pada keyakinan bahwa AGI akan terwujud dalam waktu dekat. Kalau AGI terasa terlalu dekat, perusahaan pemimpin saat ini terlihat akan memonopoli pasar; kalau terlalu jauh, investasi dan belanja terlihat tidak berkelanjutan
Bisa jadi nilai perusahaan yang sebenarnya lebih bertumpu pada fenomena bahwa perusahaan-perusahaan menggelontorkan banyak uang ke teknologi AI untuk menghemat upah kelas menengah lewat otomatisasi pekerjaan kantoran, bukan karena ekspektasi terwujudnya AGI
Bahkan tanpa AGI pun, AI saja sudah bisa menciptakan nilai ekonomi yang sangat besar
Benar. Dikombinasikan dengan narasi AGI dalam 5–10 tahun, ini dipakai untuk berargumen bahwa dibutuhkan investasi "triliunan dolar" dengan dalih perang teknologi melawan Tiongkok, seperti perlombaan antariksa. Bahkan pada 2024 berita seperti ini juga muncul: https://www.cnbc.com/2024/02/09/openai-ceo-sam-altman-reportedly-seeking-trillions-of-dollars-for-ai-chip-project.html