CS234: Pembelajaran Penguatan Musim Dingin 2025

(web.stanford.edu)

3 poin oleh GN⁺ 2025-11-28 | Belum ada komentar. | Bagikan ke WhatsApp

Kuliah tingkat pascasarjana di Stanford yang membahas konsep inti dan penerapan pembelajaran penguatan (Reinforcement Learning), dengan fokus pada prinsip bagaimana sistem otonom belajar mengambil keputusan sendiri
Mempelajari cara mendefinisikan dan menyelesaikan masalah di berbagai bidang seperti robotika, game, pemodelan konsumen, dan layanan kesehatan dengan RL
Melalui kuliah, tugas tertulis, dan tugas coding, peserta mempelajari praktik langsung mulai dari algoritme RL dasar hingga deep reinforcement learning (Deep RL)
Peserta harus telah memahami Python, aljabar linear, probabilitas dan statistika, serta dasar-dasar machine learning sebelumnya, dan tugas dikumpulkan melalui Gradescope
Disusun sebagai kurikulum yang sistematis mencakup masalah eksplorasi vs eksploitasi, policy search, offline RL, dan kasus AlphaGo, sehingga penting untuk memperkuat kompetensi inti dalam riset AI dan pengembangan aplikasi

Gambaran kuliah dan pelaksanaannya

Menekankan perlunya sistem yang belajar mengambil keputusan secara otonom untuk mencapai tujuan kecerdasan buatan
- Pembelajaran penguatan adalah paradigma yang kuat untuk mewujudkan sistem semacam itu, dan dapat diterapkan pada berbagai aplikasi nyata
Kuliah berlangsung secara langsung setiap Selasa dan Kamis, dan rekaman video disediakan melalui Canvas
Tanya jawab dilakukan melalui Ed Forum, sementara tugas dan kuis dikelola di Gradescope
Pengajar utamanya adalah Emma Brunskill, dengan dukungan beberapa asisten pengajar

Wajib memiliki kemampuan pemrograman Python, dan semua tugas ditulis dalam Python
Diperlukan pengetahuan kalkulus, aljabar linear, probabilitas, dan statistika tingkat universitas
Diharapkan memahami dasar-dasar machine learning (misalnya CS221, CS229)
- Termasuk definisi fungsi biaya, optimisasi gradient descent, dan konsep optimisasi konveks

Mendefinisikan ciri utama yang membedakan pembelajaran penguatan dari machine learning non-interaktif
Memformalkan masalah aplikasi yang diberikan sebagai RL, serta merancang ruang keadaan, ruang aksi, dan model reward
Mengimplementasikan algoritme utama seperti policy search, Q-learning, dan perencanaan MDP
Memahami kriteria evaluasi seperti regret, sample complexity, computational complexity, dan konvergensi
Membandingkan berbagai pendekatan untuk masalah eksplorasi vs eksploitasi (exploration vs exploitation)

Minggu 1: pengenalan pembelajaran penguatan, perencanaan Tabular MDP
Minggu 2: evaluasi kebijakan, Q-learning, dan pendekatan fungsi
Minggu 3~4: policy search (1~3), offline RL, dan imitation learning
Minggu 5: ujian tengah semester, topik DPO
Minggu 6~7: pendalaman offline RL, eksplorasi (1~3)
Minggu 8: eksplorasi (4), kuliah tamu, pengumpulan milestone proyek
Minggu 9: Monte Carlo Tree Search / AlphaGo, kuis
Minggu 10~11: kuliah tamu, sesi poster proyek akhir dan pengumpulan laporan

Tidak ada buku teks resmi, dan referensi utama adalah Sutton & Barto, “Reinforcement Learning: An Introduction (2nd Ed.)”
Referensi tambahan meliputi Wiering & van Otterlo, Reinforcement Learning: State-of-the-Art, Russell & Norvig, Artificial Intelligence: A Modern Approach, Goodfellow, Deep Learning, serta kuliah RL dari David Silver

Tugas 1: 10%, Tugas 2: 18%, Tugas 3: 18%
Ujian tengah semester: 25%, Kuis: 5%, Proyek: 24%
- Proposal 1%, milestone 2%, poster 5%, makalah 16%
Bonus partisipasi kuliah: hingga 0,5%

Disediakan total 5 hari keterlambatan (late days)
Maksimal 2 hari dapat digunakan untuk tiap tugas, dan jika melebihi akan dikenakan pengurangan nilai
- Jika dikumpulkan dalam 24 jam setelah tenggat, nilai maksimum 50%; setelah itu nilainya 0
Tidak ada toleransi keterlambatan untuk presentasi poster dan makalah akhir

Dilaksanakan 1 ujian tengah semester dan 1 kuis, semuanya ujian tatap muka di kampus
Ujian jarak jauh atau ujian pengganti dimungkinkan untuk alasan resmi
Materi yang diizinkan: 1 lembar catatan tulisan tangan (UTS), 1 lembar dua sisi (kuis)
Dilarang: kalkulator, laptop, ponsel, tablet, dan sebagainya

Untuk tugas tertulis, diskusi ide diperbolehkan, tetapi jawaban harus ditulis secara mandiri
Untuk tugas coding, hanya hasil input/output yang boleh dibagikan, berbagi kode dilarang
Pemeriksaan plagiarisme dilakukan dengan perangkat lunak pemeriksa kemiripan
Penggunaan AI generatif (GPT-4, Gemini, Copilot, dan sebagainya) diizinkan setara dengan kolaborasi antarmanusia
- Pembuatan kode langsung atau menyalin jawaban secara langsung dilarang
- Jika digunakan harus dinyatakan, dan tanggung jawab akhir tetap ada pada peserta
LLM tidak boleh dicantumkan sebagai co-author proyek

Dukungan akademik terkait disabilitas dapat diminta melalui Office of Accessible Education (OAE)
Permintaan penilaian ulang dapat diajukan di Gradescope dalam 3 hari setelah nilai diumumkan
Saat ditinjau ulang, seluruh tugas dapat dinilai kembali

Untuk pengambilan Credit/No Credit, kriteria penilaian yang sama tetap berlaku
C- atau lebih tinggi (sekitar 70%) akan mendapat CR