- Video yang menjelaskan secara mendalam teknologi AI large language model (LLM) yang menggerakkan ChatGPT dan produk terkait untuk pengguna umum (3 jam 31 menit)
- Membahas keseluruhan stack pelatihan tentang bagaimana model dikembangkan, bersama cara memikirkan 'psikologi' model serta mental model untuk memaksimalkan pemanfaatan model dalam aplikasi nyata
- Versi yang lebih komprehensif dibanding video "Intro to LLMs" yang dirilis 1 tahun lalu
Bab
00:00:00 introduction
00:01:00 pretraining data (internet)
00:07:47 tokenization
00:14:27 neural network I/O
00:20:11 neural network internals
00:26:01 inference
00:31:09 GPT-2: training and inference
00:42:52 Llama 3.1 base model inference
00:59:23 pretraining to post-training
01:01:06 post-training data (conversations)
01:20:32 hallucinations, tool use, knowledge/working memory
01:41:46 knowledge of self
01:46:56 models need tokens to think
02:01:11 tokenization revisited: models struggle with spelling
02:04:53 jagged intelligence
02:07:28 supervised finetuning to reinforcement learning
02:14:42 reinforcement learning
02:27:47 DeepSeek-R1
02:42:07 AlphaGo
02:48:26 reinforcement learning from human feedback (RLHF)
03:09:39 preview of things to come
03:15:15 keeping track of LLMs
03:18:34 where to find LLMs
03:21:46 grand summary
2 komentar
Menurut saya kekurangan(?) video Andrej Karpathy adalah menontonnya di 1.5x benar-benar tidak mungkin. Dia berbicara sangat cepat. :-)
Komentar Hacker News
Saya sangat menghormati orang ini. Dia seperti Neo yang menjembatani kesenjangan antara manusia dan mesin. Hal-hal yang saya pelajari secara gratis dari repositori dan videonya:
Saya selalu bilang ke teman-teman bahwa Andrej adalah pengajar terbaik yang pernah saya temui di sekolah pascasarjana. Saya tidak kuliah di Stanford, tetapi saya menonton video YouTube CS321n miliknya. Saya sangat senang dia masih terus membuat video
Dia sudah membuat lebih dari 5 video yang pada dasarnya membahas topik yang sama tentang arsitektur dan pelatihan transformer. Saya penasaran apa yang berbeda dari video kali ini
Saya sangat suka seri "let's build" miliknya. Selain konten tingkat lanjut, saya juga jadi belajar trik-trik Python yang keren
Saya frustrasi karena tidak bisa fokus pada video berdurasi panjang. Kemungkinan besar video-video ini jauh lebih baik daripada video pendek
Saya masih ingat bagaimana melakukan backpropagation menggunakan list Python sebagai bagian dari proyek CS231n. Yang menakjubkan adalah saya bahkan tidak kuliah di Stanford
Terima kasih kepada Andrej. Saya sudah punya pemahaman yang cukup baik tentang bagaimana LLM bekerja dan dilatih, tetapi banyak teman saya tidak. Video dan ceramah ini memberi mereka gambaran 'seperti apa'
Saya berharap ada cara lain untuk mendistribusikan video. Konten di YouTube pada akhirnya menghilang. Saya rasa konten ini penting. Semakin banyak orang tahu bagaimana AI bekerja, semakin kuat masyarakat kita
Saya menonton semuanya... pipi saya sampai tertidur, tapi itu sepadan. Terima kasih Andrej
Saya orang yang sederhana. Kalau melihat video Karpathy, saya klik, tonton, dan nikmati