3 poin oleh GN⁺ 2025-11-28 | Belum ada komentar. | Bagikan ke WhatsApp
  • Kuliah tingkat pascasarjana di Stanford yang membahas konsep inti dan penerapan pembelajaran penguatan (Reinforcement Learning), dengan fokus pada prinsip bagaimana sistem otonom belajar mengambil keputusan sendiri
  • Mempelajari cara mendefinisikan dan menyelesaikan masalah di berbagai bidang seperti robotika, game, pemodelan konsumen, dan layanan kesehatan dengan RL
  • Melalui kuliah, tugas tertulis, dan tugas coding, peserta mempelajari praktik langsung mulai dari algoritme RL dasar hingga deep reinforcement learning (Deep RL)
  • Peserta harus telah memahami Python, aljabar linear, probabilitas dan statistika, serta dasar-dasar machine learning sebelumnya, dan tugas dikumpulkan melalui Gradescope
  • Disusun sebagai kurikulum yang sistematis mencakup masalah eksplorasi vs eksploitasi, policy search, offline RL, dan kasus AlphaGo, sehingga penting untuk memperkuat kompetensi inti dalam riset AI dan pengembangan aplikasi

Gambaran kuliah dan pelaksanaannya

  • Menekankan perlunya sistem yang belajar mengambil keputusan secara otonom untuk mencapai tujuan kecerdasan buatan
    • Pembelajaran penguatan adalah paradigma yang kuat untuk mewujudkan sistem semacam itu, dan dapat diterapkan pada berbagai aplikasi nyata
  • Kuliah berlangsung secara langsung setiap Selasa dan Kamis, dan rekaman video disediakan melalui Canvas
  • Tanya jawab dilakukan melalui Ed Forum, sementara tugas dan kuis dikelola di Gradescope
  • Pengajar utamanya adalah Emma Brunskill, dengan dukungan beberapa asisten pengajar

Persyaratan prasyarat

  • Wajib memiliki kemampuan pemrograman Python, dan semua tugas ditulis dalam Python
  • Diperlukan pengetahuan kalkulus, aljabar linear, probabilitas, dan statistika tingkat universitas
  • Diharapkan memahami dasar-dasar machine learning (misalnya CS221, CS229)
    • Termasuk definisi fungsi biaya, optimisasi gradient descent, dan konsep optimisasi konveks

Tujuan pembelajaran

  • Mendefinisikan ciri utama yang membedakan pembelajaran penguatan dari machine learning non-interaktif
  • Memformalkan masalah aplikasi yang diberikan sebagai RL, serta merancang ruang keadaan, ruang aksi, dan model reward
  • Mengimplementasikan algoritme utama seperti policy search, Q-learning, dan perencanaan MDP
  • Memahami kriteria evaluasi seperti regret, sample complexity, computational complexity, dan konvergensi
  • Membandingkan berbagai pendekatan untuk masalah eksplorasi vs eksploitasi (exploration vs exploitation)

Ringkasan jadwal kuliah

  • Minggu 1: pengenalan pembelajaran penguatan, perencanaan Tabular MDP
  • Minggu 2: evaluasi kebijakan, Q-learning, dan pendekatan fungsi
  • Minggu 3~4: policy search (1~3), offline RL, dan imitation learning
  • Minggu 5: ujian tengah semester, topik DPO
  • Minggu 6~7: pendalaman offline RL, eksplorasi (1~3)
  • Minggu 8: eksplorasi (4), kuliah tamu, pengumpulan milestone proyek
  • Minggu 9: Monte Carlo Tree Search / AlphaGo, kuis
  • Minggu 10~11: kuliah tamu, sesi poster proyek akhir dan pengumpulan laporan

Buku dan referensi

  • Tidak ada buku teks resmi, dan referensi utama adalah Sutton & Barto, “Reinforcement Learning: An Introduction (2nd Ed.)”
  • Referensi tambahan meliputi Wiering & van Otterlo, Reinforcement Learning: State-of-the-Art, Russell & Norvig, Artificial Intelligence: A Modern Approach, Goodfellow, Deep Learning, serta kuliah RL dari David Silver

Bobot penilaian

  • Tugas 1: 10%, Tugas 2: 18%, Tugas 3: 18%
  • Ujian tengah semester: 25%, Kuis: 5%, Proyek: 24%
    • Proposal 1%, milestone 2%, poster 5%, makalah 16%
  • Bonus partisipasi kuliah: hingga 0,5%

Kebijakan keterlambatan dan pengumpulan

  • Disediakan total 5 hari keterlambatan (late days)
  • Maksimal 2 hari dapat digunakan untuk tiap tugas, dan jika melebihi akan dikenakan pengurangan nilai
    • Jika dikumpulkan dalam 24 jam setelah tenggat, nilai maksimum 50%; setelah itu nilainya 0
  • Tidak ada toleransi keterlambatan untuk presentasi poster dan makalah akhir

Ujian

  • Dilaksanakan 1 ujian tengah semester dan 1 kuis, semuanya ujian tatap muka di kampus
  • Ujian jarak jauh atau ujian pengganti dimungkinkan untuk alasan resmi
  • Materi yang diizinkan: 1 lembar catatan tulisan tangan (UTS), 1 lembar dua sisi (kuis)
  • Dilarang: kalkulator, laptop, ponsel, tablet, dan sebagainya

Tugas dan pengumpulan

  • Semua tugas dipublikasikan di halaman Assignments
  • Beberapa tugas dapat menggunakan sumber daya cloud computing
  • Petunjuk pengumpulan dapat dilihat di halaman khusus

Etika akademik dan penggunaan alat AI

  • Untuk tugas tertulis, diskusi ide diperbolehkan, tetapi jawaban harus ditulis secara mandiri
  • Untuk tugas coding, hanya hasil input/output yang boleh dibagikan, berbagi kode dilarang
  • Pemeriksaan plagiarisme dilakukan dengan perangkat lunak pemeriksa kemiripan
  • Penggunaan AI generatif (GPT-4, Gemini, Copilot, dan sebagainya) diizinkan setara dengan kolaborasi antarmanusia
    • Pembuatan kode langsung atau menyalin jawaban secara langsung dilarang
    • Jika digunakan harus dinyatakan, dan tanggung jawab akhir tetap ada pada peserta
  • LLM tidak boleh dicantumkan sebagai co-author proyek

Dukungan akademik dan pengajuan keberatan nilai

  • Dukungan akademik terkait disabilitas dapat diminta melalui Office of Accessible Education (OAE)
  • Permintaan penilaian ulang dapat diajukan di Gradescope dalam 3 hari setelah nilai diumumkan
  • Saat ditinjau ulang, seluruh tugas dapat dinilai kembali

Nilai dan bentuk pengambilan mata kuliah

  • Untuk pengambilan Credit/No Credit, kriteria penilaian yang sama tetap berlaku
  • C- atau lebih tinggi (sekitar 70%) akan mendapat CR

Lain-lain

  • Mahasiswa SCPD dapat menghubungi email khusus untuk pertanyaan administrasi
  • Desain situs web dibuat oleh Andrej Karpathy

Belum ada komentar.

Belum ada komentar.