2 poin oleh GN⁺ 2024-09-22 | 1 komentar | Bagikan ke WhatsApp

Reinforcement Learning untuk Pelatihan Koreksi Diri Model Bahasa

  • Kebutuhan akan koreksi diri

    • Kemampuan koreksi diri pada large language model (LLM) sangat diinginkan, tetapi belum efektif pada LLM modern
    • Metode pelatihan koreksi diri yang ada memerlukan beberapa model atau membutuhkan model yang lebih mampu maupun bentuk supervisi lain
  • Pendekatan SCoRe

    • SCoRe adalah pendekatan reinforcement learning (RL) online multi-turn yang secara signifikan meningkatkan kemampuan koreksi diri LLM dengan menggunakan data yang sepenuhnya dihasilkan sendiri
    • Untuk membangun SCoRe, ditunjukkan bahwa variasi supervised fine-tuning (SFT) pada jejak revisi hasil generasi model secara offline tidak cukup untuk menyuntikkan perilaku koreksi diri
    • Pelatihan melalui SFT mengalami masalah akibat ketidakcocokan distribusi antara data pelatihan dan respons model sendiri, atau cenderung memilih hanya mode perilaku koreksi tertentu sehingga tidak efektif saat pengujian
  • Solusi dari SCoRe

    • Proses pelatihan disesuaikan agar model berlatih di bawah distribusi jejak revisi yang dihasilkan sendiri, dan dengan regularisasi yang tepat mempelajari strategi koreksi diri yang efektif saat pengujian
    • Menjalankan tahap RL pertama untuk menghasilkan inisialisasi kebijakan, dan menggunakan bonus hadiah untuk memperkuat koreksi diri selama pelatihan
  • Hasil kinerja

    • Saat diterapkan pada model Gemini 1.0 Pro dan 1.5 Flash, SCoRe mencapai peningkatan kinerja koreksi diri masing-masing sebesar 15.6% dan 9.1% pada benchmark MATH dan HumanEval

Ringkasan GN⁺

  • Makalah ini mengusulkan metode untuk secara signifikan meningkatkan kemampuan koreksi diri large language model melalui reinforcement learning
  • Pendekatan SCoRe menggunakan data yang dihasilkan sendiri untuk mengatasi masalah ketidakcocokan distribusi pada model dan membantu mempelajari strategi revisi yang efektif saat pengujian
  • Riset ini menunjukkan peningkatan performa yang sangat baik, khususnya pada model Gemini
  • Kemampuan koreksi diri merupakan faktor penting untuk meningkatkan keandalan dan akurasi model bahasa
  • Proyek dengan fungsi serupa mencakup seri GPT dari OpenAI

1 komentar

 
GN⁺ 2024-09-22
Komentar Hacker News
  • Ini tampak seperti pendekatan yang mirip dengan model o1 milik OpenAI

    • Tidak ada penyebutan tentang pembukaan bobot model di makalah
    • Makalahnya terasa berputar-putar alih-alih menjelaskan topik secara langsung, jadi sulit dipahami
    • Ada teori untuk melatih perilaku "koreksi diri" guna meningkatkan tingkat jawaban benar LLM pada masalah yang sulit
    • Mereka mencoba melatih perilaku ini dengan berbagai teknik reinforcement learning, tetapi tidak berjalan dengan baik
    • Klaim makalahnya adalah ketika model menerima Answer 1, Reasoning, Corrected Answer dan sinyal "perbaiki Corrected Answer", ada dua cara
      • Memperbaiki Reasoning, Corrected Answer
      • Memperbaiki Answer 1 agar Corrected Answer menjadi sama dengan Answer 1
    • Riset sebelumnya menunjukkan bahwa cara kedua yang terutama terjadi, sehingga gagal melatih perilaku yang diinginkan
    • Makalah ini sedikit mengubah metode pelatihan untuk mendorong model menggunakan cara pertama
    • Pada tahap pertama, model dipaksa mempertahankan jawaban pertama sambil memperbaiki jawaban kedua melalui loss divergensi KL
    • Pada tahap kedua, jawaban pertama boleh diubah, tetapi fungsi reward disesuaikan untuk memberi reward lebih tinggi pada "flips"
    • Metode ini meningkatkan model secara keseluruhan sambil tetap mempertahankan perilaku koreksi diri
    • Ada kekhawatiran bahwa pada tahap 2 model bisa sengaja membuat jawaban pertama lebih buruk untuk memaksimalkan reward
  • LLM tidak memiliki ingatan langsung tentang pelatihannya sendiri

    • Manusia memeriksa bagaimana/mengapa mereka mengetahui sesuatu sebelum mengatakannya
    • LLM tidak dapat mengingat pelatihannya, sehingga koreksi diri menjadi sulit
  • Ada pertanyaan apakah ini merupakan semacam distilasi pengetahuan

  • Ada pendapat bahwa halusinasi tidak bisa dihilangkan dalam paradigma autoregresif, prediksi token berikutnya

    • Masalahnya adalah upaya menggunakan model bahasa sebagai pemecah masalah deterministik
  • Ada keluhan tentang para pakar AI yang mempopulerkan konsep "halusinasi"

    • Ini membuat AI terlihat seolah menjalani proses berpikir yang mendalam
    • AI hanya menghasilkan output berdasarkan data
    • Jika endpoint API JSON menghasilkan data yang salah, orang akan bilang "API ini rusak"
  • Algoritme cerdas yang membimbing prediktor kata berikutnya yang tidak cerdas tetaplah algoritme yang tidak cerdas

    • Ia memilah sampah dengan lebih anggun, tetapi tetap saja sampah
    • Saya berharap pendekatan reinforcement learning akan menggantikan pendekatan transformer, tetapi itu hanya mimpi