Reinforcement Learning untuk Pelatihan Koreksi Diri Model Bahasa
-
Kebutuhan akan koreksi diri
- Kemampuan koreksi diri pada large language model (LLM) sangat diinginkan, tetapi belum efektif pada LLM modern
- Metode pelatihan koreksi diri yang ada memerlukan beberapa model atau membutuhkan model yang lebih mampu maupun bentuk supervisi lain
-
Pendekatan SCoRe
- SCoRe adalah pendekatan reinforcement learning (RL) online multi-turn yang secara signifikan meningkatkan kemampuan koreksi diri LLM dengan menggunakan data yang sepenuhnya dihasilkan sendiri
- Untuk membangun SCoRe, ditunjukkan bahwa variasi supervised fine-tuning (SFT) pada jejak revisi hasil generasi model secara offline tidak cukup untuk menyuntikkan perilaku koreksi diri
- Pelatihan melalui SFT mengalami masalah akibat ketidakcocokan distribusi antara data pelatihan dan respons model sendiri, atau cenderung memilih hanya mode perilaku koreksi tertentu sehingga tidak efektif saat pengujian
-
Solusi dari SCoRe
- Proses pelatihan disesuaikan agar model berlatih di bawah distribusi jejak revisi yang dihasilkan sendiri, dan dengan regularisasi yang tepat mempelajari strategi koreksi diri yang efektif saat pengujian
- Menjalankan tahap RL pertama untuk menghasilkan inisialisasi kebijakan, dan menggunakan bonus hadiah untuk memperkuat koreksi diri selama pelatihan
-
Hasil kinerja
- Saat diterapkan pada model Gemini 1.0 Pro dan 1.5 Flash, SCoRe mencapai peningkatan kinerja koreksi diri masing-masing sebesar 15.6% dan 9.1% pada benchmark MATH dan HumanEval
Ringkasan GN⁺
- Makalah ini mengusulkan metode untuk secara signifikan meningkatkan kemampuan koreksi diri large language model melalui reinforcement learning
- Pendekatan SCoRe menggunakan data yang dihasilkan sendiri untuk mengatasi masalah ketidakcocokan distribusi pada model dan membantu mempelajari strategi revisi yang efektif saat pengujian
- Riset ini menunjukkan peningkatan performa yang sangat baik, khususnya pada model Gemini
- Kemampuan koreksi diri merupakan faktor penting untuk meningkatkan keandalan dan akurasi model bahasa
- Proyek dengan fungsi serupa mencakup seri GPT dari OpenAI
1 komentar
Komentar Hacker News
Ini tampak seperti pendekatan yang mirip dengan model o1 milik OpenAI
Answer 1, Reasoning, Corrected Answerdan sinyal "perbaiki Corrected Answer", ada dua caraReasoning, Corrected AnswerAnswer 1agarCorrected Answermenjadi sama denganAnswer 1LLM tidak memiliki ingatan langsung tentang pelatihannya sendiri
Ada pertanyaan apakah ini merupakan semacam distilasi pengetahuan
Ada pendapat bahwa halusinasi tidak bisa dihilangkan dalam paradigma autoregresif, prediksi token berikutnya
Ada keluhan tentang para pakar AI yang mempopulerkan konsep "halusinasi"
Algoritme cerdas yang membimbing prediktor kata berikutnya yang tidak cerdas tetaplah algoritme yang tidak cerdas