- Metrik yang paling tepat untuk menilai <baiknya> hasil yang dihasilkan model adalah skor preferensi manusia
- RLHF (Reinforcement Learning from Human Feedback) adalah pendekatan yang menggunakan umpan balik yang dievaluasi manusia terhadap hasil model sebagai indikator kualitas teks yang dihasilkan, dan lebih jauh lagi merancang
loss yang mencerminkan umpan balik tersebut untuk mengoptimalkan model
- RLHF: Langkah demi langkah
- #1 Melatih Language Model (pre-training)
- #2 Mengumpulkan data untuk pelatihan Reward Model dan melatih model
- #3 Melakukan fine-tuning pada Language Model melalui Reinforcement Learning
- RLHF, hal-hal yang perlu dipertimbangkan
Belum ada komentar.