Jaringan Saraf: Dari Nol hingga Menjadi Jago

(karpathy.ai)

8 poin oleh GN⁺ 2026-01-05 | 1 komentar | Bagikan ke WhatsApp

Kursus yang dipandu langsung oleh Andrej Karpathy, dengan proses belajar melalui mengimplementasikan jaringan saraf dari nol lewat kode
Membangun secara bertahap mulai dari dasar backpropagation hingga model deep learning modern setingkat GPT
Pembelajaran berfokus pada language model, sambil mempraktikkan teknologi inti seperti PyTorch, torch.Tensor, BatchNorm, WaveNet, dan tokenizer GPT
Setiap kuliah disusun berpusat pada proses pengembangan nyata seperti pelatihan model, perhitungan loss, penyesuaian hyperparameter, dan diagnosis overfitting
Kurikulum berbasis praktik untuk memahami secara sistematis cara kerja internal deep learning dan intuisi optimisasi

Gambaran Kursus

Kursus ini disusun sebagai proses belajar dengan mengimplementasikan jaringan saraf secara langsung lewat kode
- Dibutuhkan dasar matematika (diferensial, Gaussian) dan kemampuan pemrograman Python
- Disediakan kanal Discord untuk interaksi antarpeserta
Pembelajaran berpusat pada language model, yang juga berguna untuk transfer pengetahuan ke bidang lain (misalnya computer vision)

Susunan Materi (Syllabus)

1. Intro to Neural Networks and Backpropagation (2h25m)

Mengimplementasikan micrograd secara langsung sambil menjelaskan backpropagation dan proses pelatihan jaringan saraf langkah demi langkah
- Dapat dipahami hanya dengan pengetahuan dasar Python dan kalkulus tingkat SMA

2. Intro to Language Modeling: Building makemore (1h57m)

Mengimplementasikan model bahasa bigram tingkat karakter
- Membahas cara penggunaan torch.Tensor dan metode komputasi jaringan saraf yang efisien
- Mencakup proses pelatihan model, sampling, dan evaluasi loss (negative log-likelihood)

3. Building makemore Part 2: MLP (1h15m)

Implementasi model bahasa tingkat karakter berbasis multilayer perceptron (MLP)
- Mencakup konsep dasar machine learning seperti penyesuaian learning rate, hyperparameter, pembagian data (train/dev/test), serta overfitting/underfitting

4. Building makemore Part 3: Activations & Gradients, BatchNorm (1h55m)

Menganalisis cara kerja internal MLP bertingkat sambil memeriksa karakteristik statistik activation dan gradient
- Memperkenalkan Batch Normalization untuk meningkatkan stabilitas pelatihan
- Residual connection dan optimizer Adam akan dibahas di video berikutnya

5. Building makemore Part 4: Becoming a Backprop Ninja (1h55m)

Melakukan backpropagation manual tanpa PyTorch autograd
- Melakukan backpropagation secara langsung untuk cross-entropy loss, tanh, BatchNorm, embedding table, dan lainnya
- Memperkuat aliran gradient dan intuisi optimisasi pada level tensor

6. Building makemore Part 5: Building a WaveNet (56m)

Memperluas MLP 2 lapis sebelumnya untuk mengimplementasikan struktur CNN hierarkis yang mirip WaveNet (2016)
- Mempraktikkan cara kerja internal torch.nn dan workflow pengembangan deep learning (menelusuri dokumentasi, mengelola dimensi tensor, mengintegrasikan kode, dll.)

7. Let's Build GPT: From Scratch, in Code (1h56m)

Mengimplementasikan model GPT secara langsung sambil mengikuti makalah “Attention is All You Need” dan arsitektur OpenAI GPT-2/3
- Menyebut keterkaitannya dengan ChatGPT dan GitHub Copilot
- Disampaikan dengan prasyarat autoregressive language modeling dan dasar PyTorch nn yang telah dibahas dalam kuliah makemore sebelumnya

8. Let's Build the GPT Tokenizer (2h13m)

Mengimplementasikan tokenizer yang digunakan dalam seri GPT dari awal
- Mencakup proses pembelajaran berbasis Byte Pair Encoding(BPE)
- Mengimplementasikan langsung fungsi konversi string↔token (encode/decode)
- Menganalisis lewat contoh bahwa sebagian penyebab perilaku abnormal LLM berada pada tahap tokenisasi
- Termasuk pembahasan tentang kemungkinan menghapus tokenizer

Status

Kursus ini berstatus ongoing, dan video tambahan akan terus diunggah

1 komentar

GN⁺ 2026-01-05

Komentar Hacker News

Awal tahun ini saya menonton seluruh seri video ini.
Sebelumnya saya juga sudah melihat berbagai materi seperti buku tentang deep learning, kuliah Coursera, kelas universitas, kursus fast.ai, dan lain-lain, tetapi hampir tidak pernah menggunakannya dalam pekerjaan nyata.
Namun, seri ini adalah konten yang paling membantu membangun intuisi dari semua yang pernah saya lihat sejauh ini. Hampir tidak ada bagian yang tidak perlu, dan tidak membosankan.
Sekarang, kalau ada yang bilang ingin mempelajari prinsip tingkat rendah DNN, inilah yang pertama kali saya rekomendasikan.
- Gaya penjelasan Karpathy sangat intuitif, tetapi kadang terlalu disederhanakan.
  Kalau datang dari bidang yang berdekatan, mungkin terasa agak lambat, tetapi tetap selalu menarik.
Saya suka Karpathy. Kami berasal dari silsilah riset yang sama, jadi saya bangga dengan pencapaiannya.
Saya sedang meneliti pemodelan data spatio-temporal untuk membangun model prediksi sistem transportasi perkotaan. Saya juga membangun sendiri infrastruktur ML-nya, dan sedang menyiapkan aplikasi yang akan menerapkannya ke aliran event transportasi nyata.
Saya belajar online lewat Deeplearning.ai dan skills.google; yang pertama terasa agak usang, sedangkan yang kedua membahas dengan baik nuansa praktik seperti optimasi GPU·TPU.
Tetapi yang benar-benar membuat saya menjadi praktisi adalah Deep Learning with Python karya pendiri Keras, Francois Chollet. Buku ini menjelaskan konsep dengan jelas dengan latar 70 tahun sejarah deep learning, dan bahkan memuat resep untuk mengimplementasikan model seperti GPT atau Diffusion secara langsung.
Pelajaran utamanya adalah bahwa deep learning lebih merupakan seni daripada sains. Butuh banyak latihan, dan hasilnya tidak selalu bisa dijelaskan dengan sempurna.
Termasuk juga notebook contoh untuk TensorFlow, PyTorch, dan Jax. Berkat itu, sekarang saya cukup percaya diri untuk mereproduksi abstrak paper dan men-deploy model ke production.
- Proyek yang kamu kerjakan menarik. Saya penasaran bagaimana ML/AI di bidang transportasi umum digunakan, dan apa kelebihannya dibanding model berbasis agen.
Saya bukan lulusan AI, dan bahkan pengantar yang saya ambil di universitas 20 tahun lalu sudah saya lupakan semuanya.
Kalau saya menuntaskan materi ini, kira-kira saya akan sampai di level seperti apa?
Apakah cukup untuk membuat sesuatu sendiri atau ikut masuk ke percakapan, atau hanya sampai tingkat memahami konsep saja?
Saya juga penasaran apa batasan dan perbedaan yang dimiliki para peneliti.
- Pertanyaan yang aneh. Kalau kamu tidak tahu kenapa kamu membutuhkannya, mungkin memang tidak membutuhkannya. Kemungkinan besar hasilnya akan seperti kuliah pengantar yang kamu ambil 20 tahun lalu.
Sulit dibandingkan langsung, tetapi sebagai opsi lain ada portal pembelajaran Hugging Face.
Saya sedang mengikuti Deep RL Course, dan sejauh ini cukup intuitif. Hanya saja, saya rasa saya akan agak kesulitan saat bagian matematikanya muncul.
- Video Karpathy sangat mudah diakses. Saya lulusan CS, tetapi tidak mendalami ML, dan pengalaman saya dengan matriks paling jauh hanya 4x4 untuk pengembangan grafis.
  Meski begitu, saya tetap bisa memahami proses implementasi backprop dan tiny GPT. Kuliah Karpathy sangat unggul untuk memahami prinsip dasar.
  Tetapi karena hampir tidak ada praktik library, kursus yang kamu sebut mungkin lebih cocok untuk kebutuhan kerja nyata.
- Saya sudah mengikuti beberapa kursus Hugging Face, dan tidak ingin mengulanginya lagi.
  Sistem penilaian otomatis-nya terlalu kaku, jadi saya harus memaksa menulis kalimat tertentu hanya untuk membuat jawaban dianggap benar. Efisiensi belajarnya rendah dan terasa membuang waktu.
  Sebaliknya, video Karpathy benar-benar materi yang sangat berharga.
Ini memang materi yang bagus, tetapi secara realistis 99,99% orang hanya akan memakai foundation model seperti ChatGPT, Claude, atau Gemini apa adanya.
Jadi pembelajaran ini mungkin tidak langsung berubah menjadi kemampuan kerja praktis.
Sebagai gantinya, saya merekomendasikan video Karpathy lainnya, Deep Dive into LLMs like ChatGPT.
Beberapa tahun lalu, saya menulis tutorial mengimplementasikan neural network dari nol dengan NumPy.
Neural Network from Scratch in Python (NumPy)
Sedikit promosi, tetapi setelah mengikuti kursus ini saya menulis dua artikel.
No local GPU? No problem – running Karpathy’s NanoGPT on Modal.com
Modal.com and NanoGPT continued – producing output using Tiktoken for bigger tokens
Bahkan video pertama pun sulit dipahami. Apakah ada semacam daftar pengetahuan prasyarat yang wajib?
- Kalau ingin mempelajari latar matematika lebih dalam, video 3Blue1Brown bagus.
  Kalau mekanisme dasar neural network terasa sulit, saya sarankan tonton sekilas dulu lalu kembali lagi nanti. Saat menonton kedua kalinya, pemahamannya jauh lebih baik.
- Agak aneh Karpathy memilih ini sebagai video pertama.
  Video itu menjelaskan prinsip autograd, yaitu cara PyTorch menghitung diferensiasi secara otomatis di dalam.
  Dulu TensorFlow atau Torch mengharuskan fungsi diferensiasi tiap layer didefinisikan secara manual, tetapi PyTorch mencatat kode Python saat dieksekusi, lalu otomatis membangun graph dan menghitung diferensiasi.
  Jika memahami ini, kamu akan tahu bagaimana PyTorch bekerja di balik layar.
  Tetapi kebanyakan pengguna sebenarnya tetap bisa memakai model dengan baik tanpa perlu mengetahui bagian dalamnya.
  Kalau benar-benar pemula, saya merekomendasikan kursus Coursera Introduction to ML dari Andrew Ng. Saya tidak tahu versi terbarunya bagaimana, tetapi dia pendidik yang hebat.
Apakah ada yang sudah mengikuti cs231n dan kuliah ini sekaligus?
cs231n adalah salah satu kelas terbaik, tetapi yang ini terlihat banyak tumpang tindih, jadi saya menundanya. Mungkin bagian transformer ditambahkan di sini.
Saya juga sangat merekomendasikan kuliah ini.
Ini membuat kita memahami secara intuitif mengapa gradient descent dan normalization bekerja, dan juga membahas dinamika pelatihan dengan mendalam.
Ini membantu membangun insting untuk menilai apakah model benar-benar sedang belajar dengan baik.

Jaringan Saraf: Dari Nol hingga Menjadi Jago

Gambaran Kursus

Susunan Materi (Syllabus)

1. Intro to Neural Networks and Backpropagation (2h25m)

2. Intro to Language Modeling: Building makemore (1h57m)

3. Building makemore Part 2: MLP (1h15m)

4. Building makemore Part 3: Activations & Gradients, BatchNorm (1h55m)

5. Building makemore Part 4: Becoming a Backprop Ninja (1h55m)

6. Building makemore Part 5: Building a WaveNet (56m)

7. Let's Build GPT: From Scratch, in Code (1h56m)

8. Let's Build the GPT Tokenizer (2h13m)

Status

Bacaan terkait

1 komentar

Komentar Hacker News