CS234: Pembelajaran Penguatan Musim Dingin 2025
(web.stanford.edu)- Kuliah tingkat pascasarjana di Stanford yang membahas konsep inti dan penerapan pembelajaran penguatan (Reinforcement Learning), dengan fokus pada prinsip bagaimana sistem otonom belajar mengambil keputusan sendiri
- Mempelajari cara mendefinisikan dan menyelesaikan masalah di berbagai bidang seperti robotika, game, pemodelan konsumen, dan layanan kesehatan dengan RL
- Melalui kuliah, tugas tertulis, dan tugas coding, peserta mempelajari praktik langsung mulai dari algoritme RL dasar hingga deep reinforcement learning (Deep RL)
- Peserta harus telah memahami Python, aljabar linear, probabilitas dan statistika, serta dasar-dasar machine learning sebelumnya, dan tugas dikumpulkan melalui Gradescope
- Disusun sebagai kurikulum yang sistematis mencakup masalah eksplorasi vs eksploitasi, policy search, offline RL, dan kasus AlphaGo, sehingga penting untuk memperkuat kompetensi inti dalam riset AI dan pengembangan aplikasi
Gambaran kuliah dan pelaksanaannya
- Menekankan perlunya sistem yang belajar mengambil keputusan secara otonom untuk mencapai tujuan kecerdasan buatan
- Pembelajaran penguatan adalah paradigma yang kuat untuk mewujudkan sistem semacam itu, dan dapat diterapkan pada berbagai aplikasi nyata
- Kuliah berlangsung secara langsung setiap Selasa dan Kamis, dan rekaman video disediakan melalui Canvas
- Tanya jawab dilakukan melalui Ed Forum, sementara tugas dan kuis dikelola di Gradescope
- Pengajar utamanya adalah Emma Brunskill, dengan dukungan beberapa asisten pengajar
Persyaratan prasyarat
- Wajib memiliki kemampuan pemrograman Python, dan semua tugas ditulis dalam Python
- Diperlukan pengetahuan kalkulus, aljabar linear, probabilitas, dan statistika tingkat universitas
- Diharapkan memahami dasar-dasar machine learning (misalnya CS221, CS229)
- Termasuk definisi fungsi biaya, optimisasi gradient descent, dan konsep optimisasi konveks
Tujuan pembelajaran
- Mendefinisikan ciri utama yang membedakan pembelajaran penguatan dari machine learning non-interaktif
- Memformalkan masalah aplikasi yang diberikan sebagai RL, serta merancang ruang keadaan, ruang aksi, dan model reward
- Mengimplementasikan algoritme utama seperti policy search, Q-learning, dan perencanaan MDP
- Memahami kriteria evaluasi seperti regret, sample complexity, computational complexity, dan konvergensi
- Membandingkan berbagai pendekatan untuk masalah eksplorasi vs eksploitasi (exploration vs exploitation)
Ringkasan jadwal kuliah
- Minggu 1: pengenalan pembelajaran penguatan, perencanaan Tabular MDP
- Minggu 2: evaluasi kebijakan, Q-learning, dan pendekatan fungsi
- Minggu 3~4: policy search (1~3), offline RL, dan imitation learning
- Minggu 5: ujian tengah semester, topik DPO
- Minggu 6~7: pendalaman offline RL, eksplorasi (1~3)
- Minggu 8: eksplorasi (4), kuliah tamu, pengumpulan milestone proyek
- Minggu 9: Monte Carlo Tree Search / AlphaGo, kuis
- Minggu 10~11: kuliah tamu, sesi poster proyek akhir dan pengumpulan laporan
Buku dan referensi
- Tidak ada buku teks resmi, dan referensi utama adalah Sutton & Barto, “Reinforcement Learning: An Introduction (2nd Ed.)”
- Referensi tambahan meliputi Wiering & van Otterlo, Reinforcement Learning: State-of-the-Art, Russell & Norvig, Artificial Intelligence: A Modern Approach, Goodfellow, Deep Learning, serta kuliah RL dari David Silver
Bobot penilaian
- Tugas 1: 10%, Tugas 2: 18%, Tugas 3: 18%
- Ujian tengah semester: 25%, Kuis: 5%, Proyek: 24%
- Proposal 1%, milestone 2%, poster 5%, makalah 16%
- Bonus partisipasi kuliah: hingga 0,5%
Kebijakan keterlambatan dan pengumpulan
- Disediakan total 5 hari keterlambatan (late days)
- Maksimal 2 hari dapat digunakan untuk tiap tugas, dan jika melebihi akan dikenakan pengurangan nilai
- Jika dikumpulkan dalam 24 jam setelah tenggat, nilai maksimum 50%; setelah itu nilainya 0
- Tidak ada toleransi keterlambatan untuk presentasi poster dan makalah akhir
Ujian
- Dilaksanakan 1 ujian tengah semester dan 1 kuis, semuanya ujian tatap muka di kampus
- Ujian jarak jauh atau ujian pengganti dimungkinkan untuk alasan resmi
- Materi yang diizinkan: 1 lembar catatan tulisan tangan (UTS), 1 lembar dua sisi (kuis)
- Dilarang: kalkulator, laptop, ponsel, tablet, dan sebagainya
Tugas dan pengumpulan
- Semua tugas dipublikasikan di halaman Assignments
- Beberapa tugas dapat menggunakan sumber daya cloud computing
- Petunjuk pengumpulan dapat dilihat di halaman khusus
Etika akademik dan penggunaan alat AI
- Untuk tugas tertulis, diskusi ide diperbolehkan, tetapi jawaban harus ditulis secara mandiri
- Untuk tugas coding, hanya hasil input/output yang boleh dibagikan, berbagi kode dilarang
- Pemeriksaan plagiarisme dilakukan dengan perangkat lunak pemeriksa kemiripan
- Penggunaan AI generatif (GPT-4, Gemini, Copilot, dan sebagainya) diizinkan setara dengan kolaborasi antarmanusia
- Pembuatan kode langsung atau menyalin jawaban secara langsung dilarang
- Jika digunakan harus dinyatakan, dan tanggung jawab akhir tetap ada pada peserta
- LLM tidak boleh dicantumkan sebagai co-author proyek
Dukungan akademik dan pengajuan keberatan nilai
- Dukungan akademik terkait disabilitas dapat diminta melalui Office of Accessible Education (OAE)
- Permintaan penilaian ulang dapat diajukan di Gradescope dalam 3 hari setelah nilai diumumkan
- Saat ditinjau ulang, seluruh tugas dapat dinilai kembali
Nilai dan bentuk pengambilan mata kuliah
- Untuk pengambilan Credit/No Credit, kriteria penilaian yang sama tetap berlaku
- C- atau lebih tinggi (sekitar 70%) akan mendapat CR
Lain-lain
- Mahasiswa SCPD dapat menghubungi email khusus untuk pertanyaan administrasi
- Desain situs web dibuat oleh Andrej Karpathy
1 komentar
Opini Hacker News
Saya sempat berharap video kuliahnya sudah dirilis, tetapi ternyata tidak publik
Pada masa pandemi, banyak institusi membuka materi ke seluruh dunia, tetapi belakangan trennya justru menutup bukan hanya kuliah baru, melainkan juga video lama
Bahkan MIT OCW pun untuk mata kuliah pascasarjana tingkat lanjut materinya menghilang
Tentu saya paham universitas perlu memprioritaskan alumninya, tetapi untuk membuka materi dasar seperti video kuliah, pada praktiknya hampir tidak ada biaya
Materi seperti ini rasanya memberi nilai yang besar bagi dunia
Sejumlah profesor tidak ingin membagikan slide kuliah atau rekaman karena isu hak cipta
Tetapi sikap seperti ini terasa menciptakan eksklusivitas bukan lewat reputasi sejati, melainkan lewat hambatan hukum
Pada akhirnya yang diuntungkan hanya mahasiswa yang membayar uang kuliah mahal, pengajar yang tidak ingin berubah, dan administrator universitas
Ada ungkapan, “RL adalah metode pembelajaran terburuk, kecuali semua metode lainnya”
Banyak ilmuwan berpikir bahwa 10 tahun dari sekarang RL tidak lagi menjadi arus utama pelatihan model mutakhir
Saya juga setuju, dan menyarankan agar saat mengikuti kuliah ini orang juga memikirkan paradigma lain
Seperti generasi gambar melompat maju dengan diffusion model dan GPT dengan RLHF, RL juga bukan tahap akhir
Tugas kita adalah menemukan metode yang lebih baik daripada itu
Jika diberi waktu eksekusi yang cukup, secara matematis ia dapat menjamin solusi optimal
Itulah sebabnya mobil swakemudi memakai RL, bukan GPT
Saat mengoptimalkan ratusan juta hingga miliaran kunjungan, menambahkan contextual multi-armed bandit sangat efektif untuk mendorong pembelian
Tetapi dalam pekerjaan nyata saya sadar bahwa generalisasi out-of-distribution tidak bisa dicapai hanya dengan pembelajaran berbasis reward sederhana
Saya penasaran apakah videonya tersedia untuk umum, dan kuliah semester semi ada di playlist YouTube
Dari sudut pandang orang yang hanya belajar ML tradisional, saya bingung bagaimana RL harus diterapkan pada masalah umum
Misalnya, untuk klasifikasi biner dengan BCE loss atau prediksi harga rumah, saya tidak tahu bagaimana memaksakan RL agar bisa dipakai
Saya tidak menangkap bagaimana menghubungkannya dengan fungsi loss
Untuk masalah regresi yang jelas seperti prediksi harga rumah, metode yang ada sudah cukup efektif sehingga RL tidak diperlukan
Sebaliknya, untuk masalah pengambilan keputusan berurutan seperti Go, sinyal reward jarang dan cara memperbaiki strategi tidak jelas, sehingga RL cocok digunakan
RL berguna dalam situasi kompleks tanpa label, tetapi bahkan untuk masalah seperti catur, kuncinya pada akhirnya adalah mengubahnya menjadi masalah supervised learning
Ia cocok untuk masalah pengambilan keputusan berurutan dengan ruang status dan aksi yang terdefinisi, tetapi tidak cocok untuk klasifikasi biner atau regresi
RL kuat untuk masalah yang menuntut keputusan saat ini ketika hasil masa depan belum diketahui
Banyak yang menilai RL itu tidak stabil dan sulit konvergen
Peneliti Stanford juga mengakuinya
Saya penasaran apakah ada solusinya
Dengan mempelajari seluruh distribusi reward, bukan satu nilai maksimum saja, stabilitas bisa ditingkatkan
Jika sebelumnya mendengarkan podcast Ilya, judul kuliah kali ini terasa menarik
Saya sedang mencari buku rekomendasi terkait RL
Saya sudah cukup banyak belajar deep learning
Saya sedang mempertimbangkan Reinforcement Learning karya Sutton, Reinforcement Learning, an overview karya Kevin Patrick Murphy, dan buku baru Sebastian Raschka
PDF gratisnya bisa diunduh di algorithmsbook.com