3 poin oleh GN⁺ 2025-11-28 | 1 komentar | Bagikan ke WhatsApp
  • Kuliah tingkat pascasarjana di Stanford yang membahas konsep inti dan penerapan pembelajaran penguatan (Reinforcement Learning), dengan fokus pada prinsip bagaimana sistem otonom belajar mengambil keputusan sendiri
  • Mempelajari cara mendefinisikan dan menyelesaikan masalah di berbagai bidang seperti robotika, game, pemodelan konsumen, dan layanan kesehatan dengan RL
  • Melalui kuliah, tugas tertulis, dan tugas coding, peserta mempelajari praktik langsung mulai dari algoritme RL dasar hingga deep reinforcement learning (Deep RL)
  • Peserta harus telah memahami Python, aljabar linear, probabilitas dan statistika, serta dasar-dasar machine learning sebelumnya, dan tugas dikumpulkan melalui Gradescope
  • Disusun sebagai kurikulum yang sistematis mencakup masalah eksplorasi vs eksploitasi, policy search, offline RL, dan kasus AlphaGo, sehingga penting untuk memperkuat kompetensi inti dalam riset AI dan pengembangan aplikasi

Gambaran kuliah dan pelaksanaannya

  • Menekankan perlunya sistem yang belajar mengambil keputusan secara otonom untuk mencapai tujuan kecerdasan buatan
    • Pembelajaran penguatan adalah paradigma yang kuat untuk mewujudkan sistem semacam itu, dan dapat diterapkan pada berbagai aplikasi nyata
  • Kuliah berlangsung secara langsung setiap Selasa dan Kamis, dan rekaman video disediakan melalui Canvas
  • Tanya jawab dilakukan melalui Ed Forum, sementara tugas dan kuis dikelola di Gradescope
  • Pengajar utamanya adalah Emma Brunskill, dengan dukungan beberapa asisten pengajar

Persyaratan prasyarat

  • Wajib memiliki kemampuan pemrograman Python, dan semua tugas ditulis dalam Python
  • Diperlukan pengetahuan kalkulus, aljabar linear, probabilitas, dan statistika tingkat universitas
  • Diharapkan memahami dasar-dasar machine learning (misalnya CS221, CS229)
    • Termasuk definisi fungsi biaya, optimisasi gradient descent, dan konsep optimisasi konveks
Iklan

Tujuan pembelajaran

  • Mendefinisikan ciri utama yang membedakan pembelajaran penguatan dari machine learning non-interaktif
  • Memformalkan masalah aplikasi yang diberikan sebagai RL, serta merancang ruang keadaan, ruang aksi, dan model reward
  • Mengimplementasikan algoritme utama seperti policy search, Q-learning, dan perencanaan MDP
  • Memahami kriteria evaluasi seperti regret, sample complexity, computational complexity, dan konvergensi
  • Membandingkan berbagai pendekatan untuk masalah eksplorasi vs eksploitasi (exploration vs exploitation)

Ringkasan jadwal kuliah

  • Minggu 1: pengenalan pembelajaran penguatan, perencanaan Tabular MDP
  • Minggu 2: evaluasi kebijakan, Q-learning, dan pendekatan fungsi
  • Minggu 3~4: policy search (1~3), offline RL, dan imitation learning
  • Minggu 5: ujian tengah semester, topik DPO
  • Minggu 6~7: pendalaman offline RL, eksplorasi (1~3)
  • Minggu 8: eksplorasi (4), kuliah tamu, pengumpulan milestone proyek
  • Minggu 9: Monte Carlo Tree Search / AlphaGo, kuis
  • Minggu 10~11: kuliah tamu, sesi poster proyek akhir dan pengumpulan laporan

Buku dan referensi

  • Tidak ada buku teks resmi, dan referensi utama adalah Sutton & Barto, “Reinforcement Learning: An Introduction (2nd Ed.)”
  • Referensi tambahan meliputi Wiering & van Otterlo, Reinforcement Learning: State-of-the-Art, Russell & Norvig, Artificial Intelligence: A Modern Approach, Goodfellow, Deep Learning, serta kuliah RL dari David Silver

Bobot penilaian

  • Tugas 1: 10%, Tugas 2: 18%, Tugas 3: 18%
  • Ujian tengah semester: 25%, Kuis: 5%, Proyek: 24%
    • Proposal 1%, milestone 2%, poster 5%, makalah 16%
  • Bonus partisipasi kuliah: hingga 0,5%
Iklan

Kebijakan keterlambatan dan pengumpulan

  • Disediakan total 5 hari keterlambatan (late days)
  • Maksimal 2 hari dapat digunakan untuk tiap tugas, dan jika melebihi akan dikenakan pengurangan nilai
    • Jika dikumpulkan dalam 24 jam setelah tenggat, nilai maksimum 50%; setelah itu nilainya 0
  • Tidak ada toleransi keterlambatan untuk presentasi poster dan makalah akhir

Ujian

  • Dilaksanakan 1 ujian tengah semester dan 1 kuis, semuanya ujian tatap muka di kampus
  • Ujian jarak jauh atau ujian pengganti dimungkinkan untuk alasan resmi
  • Materi yang diizinkan: 1 lembar catatan tulisan tangan (UTS), 1 lembar dua sisi (kuis)
  • Dilarang: kalkulator, laptop, ponsel, tablet, dan sebagainya

Tugas dan pengumpulan

  • Semua tugas dipublikasikan di halaman Assignments
  • Beberapa tugas dapat menggunakan sumber daya cloud computing
  • Petunjuk pengumpulan dapat dilihat di halaman khusus
Iklan

Etika akademik dan penggunaan alat AI

  • Untuk tugas tertulis, diskusi ide diperbolehkan, tetapi jawaban harus ditulis secara mandiri
  • Untuk tugas coding, hanya hasil input/output yang boleh dibagikan, berbagi kode dilarang
  • Pemeriksaan plagiarisme dilakukan dengan perangkat lunak pemeriksa kemiripan
  • Penggunaan AI generatif (GPT-4, Gemini, Copilot, dan sebagainya) diizinkan setara dengan kolaborasi antarmanusia
    • Pembuatan kode langsung atau menyalin jawaban secara langsung dilarang
    • Jika digunakan harus dinyatakan, dan tanggung jawab akhir tetap ada pada peserta
  • LLM tidak boleh dicantumkan sebagai co-author proyek

Dukungan akademik dan pengajuan keberatan nilai

  • Dukungan akademik terkait disabilitas dapat diminta melalui Office of Accessible Education (OAE)
  • Permintaan penilaian ulang dapat diajukan di Gradescope dalam 3 hari setelah nilai diumumkan
  • Saat ditinjau ulang, seluruh tugas dapat dinilai kembali

Nilai dan bentuk pengambilan mata kuliah

  • Untuk pengambilan Credit/No Credit, kriteria penilaian yang sama tetap berlaku
  • C- atau lebih tinggi (sekitar 70%) akan mendapat CR

Lain-lain

  • Mahasiswa SCPD dapat menghubungi email khusus untuk pertanyaan administrasi
  • Desain situs web dibuat oleh Andrej Karpathy

1 komentar

 
GN⁺ 2025-11-28
Opini Hacker News
  • Saya sempat berharap video kuliahnya sudah dirilis, tetapi ternyata tidak publik
    Pada masa pandemi, banyak institusi membuka materi ke seluruh dunia, tetapi belakangan trennya justru menutup bukan hanya kuliah baru, melainkan juga video lama
    Bahkan MIT OCW pun untuk mata kuliah pascasarjana tingkat lanjut materinya menghilang
    Tentu saya paham universitas perlu memprioritaskan alumninya, tetapi untuk membuka materi dasar seperti video kuliah, pada praktiknya hampir tidak ada biaya
    Materi seperti ini rasanya memberi nilai yang besar bagi dunia

    • Video kuliah tahun 2024 tersedia di playlist YouTube
    • Ada juga argumen bahwa jika materi baru dibuka, institusi lain akan lebih mudah melakukan plagiarisme
      Sejumlah profesor tidak ingin membagikan slide kuliah atau rekaman karena isu hak cipta
      Tetapi sikap seperti ini terasa menciptakan eksklusivitas bukan lewat reputasi sejati, melainkan lewat hambatan hukum
      Pada akhirnya yang diuntungkan hanya mahasiswa yang membayar uang kuliah mahal, pengajar yang tidak ingin berubah, dan administrator universitas
  • Ada ungkapan, “RL adalah metode pembelajaran terburuk, kecuali semua metode lainnya”
    Banyak ilmuwan berpikir bahwa 10 tahun dari sekarang RL tidak lagi menjadi arus utama pelatihan model mutakhir
    Saya juga setuju, dan menyarankan agar saat mengikuti kuliah ini orang juga memikirkan paradigma lain
    Seperti generasi gambar melompat maju dengan diffusion model dan GPT dengan RLHF, RL juga bukan tahap akhir
    Tugas kita adalah menemukan metode yang lebih baik daripada itu

    • Orang sering menganggap minat hanya ada pada generasi gambar atau teks, tetapi RL unggul dalam masalah kontrol
      Jika diberi waktu eksekusi yang cukup, secara matematis ia dapat menjamin solusi optimal
      Itulah sebabnya mobil swakemudi memakai RL, bukan GPT
    • RL pada dasarnya lebih dekat ke cara menghasilkan dataset daripada metode pembelajaran
    • Di industri periklanan pun RL masih digunakan secara aktif
      Saat mengoptimalkan ratusan juta hingga miliaran kunjungan, menambahkan contextual multi-armed bandit sangat efektif untuk mendorong pembelian
    • Saya penasaran paradigma apa yang cocok untuk masalah optimisasi kombinatorial (combinatorial optimization) atau lingkungan berbasis simulasi
    • Dulu saya menganggap RLHF seperti strategi siswa untuk menaikkan nilai ujian
      Tetapi dalam pekerjaan nyata saya sadar bahwa generalisasi out-of-distribution tidak bisa dicapai hanya dengan pembelajaran berbasis reward sederhana
  • Saya penasaran apakah videonya tersedia untuk umum, dan kuliah semester semi ada di playlist YouTube

  • Dari sudut pandang orang yang hanya belajar ML tradisional, saya bingung bagaimana RL harus diterapkan pada masalah umum
    Misalnya, untuk klasifikasi biner dengan BCE loss atau prediksi harga rumah, saya tidak tahu bagaimana memaksakan RL agar bisa dipakai
    Saya tidak menangkap bagaimana menghubungkannya dengan fungsi loss

    • Tiga hal yang perlu dipertimbangkan saat memutuskan apakah akan memakai RL adalah ① seberapa informatif loss tiap contoh, ② apakah model bisa disesuaikan dari sinyal loss itu, dan ③ kompleksitas ruang fitur
      Untuk masalah regresi yang jelas seperti prediksi harga rumah, metode yang ada sudah cukup efektif sehingga RL tidak diperlukan
      Sebaliknya, untuk masalah pengambilan keputusan berurutan seperti Go, sinyal reward jarang dan cara memperbaiki strategi tidak jelas, sehingga RL cocok digunakan
    • Kalau saya, saya tidak akan memakai RL
      RL berguna dalam situasi kompleks tanpa label, tetapi bahkan untuk masalah seperti catur, kuncinya pada akhirnya adalah mengubahnya menjadi masalah supervised learning
    • RL adalah teknik untuk mencari kebijakan optimal dalam Markov Decision Process (MDP)
      Ia cocok untuk masalah pengambilan keputusan berurutan dengan ruang status dan aksi yang terdefinisi, tetapi tidak cocok untuk klasifikasi biner atau regresi
      RL kuat untuk masalah yang menuntut keputusan saat ini ketika hasil masa depan belum diketahui
  • Banyak yang menilai RL itu tidak stabil dan sulit konvergen
    Peneliti Stanford juga mengakuinya
    Saya penasaran apakah ada solusinya

    • FlowRL adalah salah satu alternatif
      Dengan mempelajari seluruh distribusi reward, bukan satu nilai maksimum saja, stabilitas bisa ditingkatkan
  • Jika sebelumnya mendengarkan podcast Ilya, judul kuliah kali ini terasa menarik

    • Muncul candaan, “Jadi musim dingin AI akhirnya datang?”
    • Ada juga yang bertanya podcast yang dimaksud itu yang mana
  • Saya sedang mencari buku rekomendasi terkait RL
    Saya sudah cukup banyak belajar deep learning
    Saya sedang mempertimbangkan Reinforcement Learning karya Sutton, Reinforcement Learning, an overview karya Kevin Patrick Murphy, dan buku baru Sebastian Raschka

    • Algorithms for Decision Making karya Kochenderfer dkk. juga membahas pendekatan yang terkait dengan RL
      PDF gratisnya bisa diunduh di algorithmsbook.com