4 poin oleh GN⁺ 2025-02-03 | 1 komentar | Bagikan ke WhatsApp
  • Pengantar

    • Reinforcement Learning from Human Feedback (RLHF) telah menjadi alat teknis penting untuk menerapkan sistem pembelajaran mesin modern.
    • Buku ini memperkenalkan metode inti RLHF dan berawal dari perpaduan berbagai bidang ilmiah seperti ekonomi, filsafat, dan kendali optimal.
    • Menjelaskan konsep matematika umum yang digunakan dalam literatur, seperti definisi, perumusan masalah, dan pengumpulan data.
  • Optimisasi dan Reinforcement Learning

    • Membahas berbagai metode optimisasi seperti data preferensi, pemodelan reward, regularisasi, instruction tuning, rejection sampling, policy gradient, dan algoritme alignment langsung.
  • Topik Lanjutan

    • Membahas topik lanjutan seperti Constitutional AI dan umpan balik AI, penalaran dan fine-tuning penguatan, data sintetis, evaluasi, dan over-optimization.
  • Ucapan Terima Kasih

    • Menyampaikan terima kasih kepada Costa Huang dan Claude yang secara langsung membantu proyek ini.
    • Juga menyampaikan terima kasih kepada para kontributor GitHub.
  • Sitasi

    • Penulis: Nathan Lambert
    • Judul: Reinforcement Learning from Human Feedback
    • Tahun terbit: 2024
    • Penerbit: Online
    • URL: https://rlhfbook.com

1 komentar

 
GN⁺ 2025-02-03
Pendapat Hacker News
  • Positif terhadap upaya penulis untuk menjembatani kesenjangan dalam dokumentasi publik tentang teori dan praktik RLHF. State of the art saat ini terutama didokumentasikan dalam paper arXiv, dan karena setiap paper lebih mirip "perbedaan" daripada "snapshot", seseorang harus menggabungkan pengetahuan dari banyak paper sebelumnya untuk memahami kondisi terkini. Sangat berharga untuk membuat state of the art saat ini menjadi "snapshot" yang mudah dirujuk

    • Merasa diperlukan lebih banyak materi pengantar yang membandingkan RLHF dan SFT agar dapat membantu menetapkan motivasi dan ekspektasi terhadap RLHF
    • Kelebihan RLHF: dapat menyesuaikan keseluruhan generasi, dapat menyesuaikan masalah yang memiliki beberapa jawaban yang dapat diterima, dan dapat menggabungkan umpan balik negatif
    • Kekurangan RLHF: regularisasi membatasi dampaknya pada model, sangat sensitif terhadap kualitas reward model, serta membutuhkan banyak sumber daya dan waktu
    • Pertimbangan praktis: perlu memahami cara mengevaluasi kualitas, dan bagaimana prompt engineering berinteraksi dengan fine-tuning
  • Disebutkan bahwa penulis sendiri sedang mengerjakannya saat ini, dan menyambut koreksi atau saran di GitHub

  • Disebutkan bahwa kutipan "Reinforcement learning melalui umpan balik manusia dirancang untuk mengoptimalkan model machine learning di domain yang sulit merancang fungsi reward-nya" bermanfaat

  • Setelah mengetahui definisi RLHF, terasa seperti "mempelajari apa yang kita katakan penting". Mengungkapkan ekspektasi yang tinggi terhadap masa depan

  • Membagikan materi bermanfaat lain tentang RLHF

  • Disebutkan bahwa diperlukan versi epub dari materi ini

  • "Reinforcement Learning: An Overview" karya Kevin Murphy memberikan gambaran terkini tentang bidang (deep) reinforcement learning dan sequential decision making, mencakup value-based RL, metode policy gradient, model-based methods, dan lainnya

  • Muncul pertanyaan tentang perbedaan antara RLHF dan distillation