Buku RLHF Terbit

(rlhfbook.com)

4 poin oleh GN⁺ 2025-02-03 | Belum ada komentar. | Bagikan ke WhatsApp

Buku dan kuliah online gratis ini dibuat agar pembaca dapat mempelajari RLHF dan post-training model bahasa di satu tempat, dengan susunan yang memungkinkan pembaca berlatar belakang kuantitatif mengikuti seluruh prosedur pelatihan
Alur utamanya adalah resep RLHF, yang menjelaskan keterkaitan antara instruction tuning, pelatihan reward model, rejection sampling, reinforcement learning, on-policy distillation, dan algoritme direct alignment
Selain tonggak teknis, buku ini juga membahas asal-usul RLHF yang terhubung ke ekonomi, filsafat, optimal control, dan bidang lain sehingga latar kemunculan konsepnya dapat dilihat lebih luas
Materi pendamping yang disediakan mencakup codebase algoritme, library untuk membandingkan penyelesaian model pada tiap tahap post-training, dan halaman kuliah untuk pembelajaran
Setelah final editing pada April 2026 dan penerapan penyempurnaan edisi Manning, buku ini akan beralih ke versi cetak, dan perubahan kontennya ke depan diperkirakan akan berkurang

Buku untuk Mempelajari RLHF dan Post-Training

RLHF telah menjadi alat penting untuk membangun sistem machine learning skala besar modern, dan cakupan pembahasannya juga meluas dari metode inti RLHF ke kumpulan teknik post-training yang lebih luas
Buku ini dimulai dari pengantar singkat yang berfokus pada model bahasa, lalu disusun agar pembaca dengan latar belakang kuantitatif dapat memahami metode inti post-training model secara bertahap
Mengikuti prosedur RLHF standar, buku ini membahas topik-topik berikut
- apa yang dilakukan RLHF dan mengapa ia dibuat
- tonggak teknis utama dalam sejarah singkatnya
- latar belakang reinforcement learning yang diperlukan untuk memahami buku ini
- tahap optimisasi dari instruction tuning hingga pelatihan reward model
- rejection sampling, reinforcement learning, on-policy distillation, dan algoritme direct alignment
Bagian akhir membahas pertanyaan terbuka dan bidang-bidang yang masih kurang diteliti atau baru muncul, seperti data sintetis, penggunaan alat, character learning, dan evaluasi

Materi pendamping untuk mempelajari konsep dasar model bahasa post-training juga disediakan
- codebase: implementasi algoritme yang muncul dalam buku
- library: library untuk membandingkan penyelesaian model dalam tahap post-training
- course: halaman kuliah untuk pembelajaran
Perubahan 2026
- April 2026: final editing untuk versi cetak, penerapan penyempurnaan edisi Manning, penjelasan rumus dan istilah diperjelas, perbaikan typo dan tata bahasa di semua bab, perluasan bab produk
- Maret 2026: course page dengan video kuliah dirilis, penyorotan sintaks PDF, perluasan bab produk
- Februari 2026: dengan konten v2 ditambahkan bab direct alignment, diagram baru, RL cheatsheet, lampiran, kotak pencarian, dukungan Kindle, dan perbaikan editorial
- Januari 2026: restrukturisasi besar bab agar sesuai dengan struktur buku Manning, library contoh kode, penerapan pengalihan lokasi baru untuk URL lama
- Pada 2025 dan 2024, DPO, RLVR/reasoning, tool use, evaluation, overoptimization, reward modeling, preference data, policy gradient, PPO, GAE, regularization, bibliography, dan lainnya ditambahkan secara bertahap
- Format sitasi edisi 2026 disediakan sebagai @book{rlhf2026lambert, ... title = {Reinforcement Learning from Human Feedback}, year = {2026}, publisher = {Online}, url = {https://rlhfbook.com}}