Bagaimana ChatGPT Dilatih - RLHF

xguru · 2023-02-08T10:42:16+09:00

Metrik yang paling tepat untuk menilai hasil yang dihasilkan model adalah skor preferensi manusia RLHF (Reinforcement Learning from Human Feedback) adalah pendekatan yang menggunakan umpan balik yang dievaluasi manusia terhadap hasil model sebagai indikator kualitas teks yang dihasilkan, dan lebih jauh lagi merancang loss yang mencerminkan umpan balik tersebut untuk mengoptimalkan model RLHF: Langkah demi langkah #1 Melatih Language Model (pre-training) #2 Mengumpulkan data untuk pelatihan Reward Model dan melatih model #3 Melakukan fine-tuning pada Language Model melalui Reinforcement Learning RLHF, hal-hal yang perlu dipertimbangkan Keterbatasan saat ini

(littlefoxdiary.tistory.com)

15 poin oleh xguru 2023-02-08 | Belum ada komentar. | Bagikan ke WhatsApp

Metrik yang paling tepat untuk menilai <baiknya> hasil yang dihasilkan model adalah skor preferensi manusia
RLHF (Reinforcement Learning from Human Feedback) adalah pendekatan yang menggunakan umpan balik yang dievaluasi manusia terhadap hasil model sebagai indikator kualitas teks yang dihasilkan, dan lebih jauh lagi merancang loss yang mencerminkan umpan balik tersebut untuk mengoptimalkan model
RLHF: Langkah demi langkah
- #1 Melatih Language Model (pre-training)
- #2 Mengumpulkan data untuk pelatihan Reward Model dan melatih model
- #3 Melakukan fine-tuning pada Language Model melalui Reinforcement Learning
RLHF, hal-hal yang perlu dipertimbangkan
- Keterbatasan saat ini

Bagaimana ChatGPT Dilatih - RLHF

Bacaan terkait

Belum ada komentar.