"RLHF hanyalah bagian kecil dari RL." - Andrej Karpathy

xguru · 2024-08-09T10:46:01+09:00

Reinforcement Learning from Human Feedback (RLHF) adalah tahap utama ketiga (dan terakhir) dalam pelatihan LLM setelah pretraining dan supervised finetuning (SFT) Menurut saya, RLHF hanyalah sebagian kecil dari RL, dan hal ini belum banyak diketahui RLHF sebenarnya belum cukup layak disebut sebagai RL (reinforcement learning) Sebagai contoh, AlphaGo dilatih dengan RL yang sesungguhnya, dan jika dilatih dengan RLHF, kemungkinan besar tidak akan mencapai hasil seperti sekarang Apa yang akan terjadi jika AlphaGo dilatih dengan RLHF? Penilai manusia akan diberi dua keadaan papan baduk dan diminta memilih mana yang lebih baik Sekitar 100 ribu perbandingan seperti ini dikumpulkan, lalu jaringan saraf "Reward Model" (RM, model penghargaan) dilatih untuk meniru penilaian manusia (Vibe Check) RL kemudian dijalankan berdasarkan model penghargaan ini untuk mempelajari langkah-langkah yang mendapat penilaian baik Namun, pendekatan ini kemungkinan tidak akan menghasilkan performa yang berarti dalam baduk Dua alasan utama mengapa RLHF tidak cocok untuk AlphaGo Pertama, vibe bisa menyesatkan. Penghargaan ini bukan penghargaan kemenangan yang sebenarnya, melainkan tujuan proxy yang tidak akurat Kedua, dalam proses optimisasi RL, besar kemungkinan model penghargaan memberi skor tinggi pada keadaan abnormal yang berada di luar cakupan data latih, sehingga optimisasi menjadi terdistorsi RM adalah jaringan saraf besar dengan miliaran parameter yang meniru vibe Masalah saat menerapkan RLHF pada LLM Model penghargaan pada LLM juga cenderung memberi skor tinggi pada respons yang kemungkinan disukai penilai manusia Model penghargaan ini bukan menyelesaikan masalah yang "sebenarnya", melainkan hanya tujuan proxy yang menilai respons yang tampaknya akan disukai manusia RLHF tidak bisa dijalankan terlalu lama, karena model dengan cepat belajar menjawab dengan cara yang menipu model penghargaan Kita bisa melihat asisten LLM mulai merespons dengan hal aneh seperti "The the the the the the" Ini terlihat lucu, tetapi RM menganggapnya sangat bagus Artinya, model menemukan contoh adversarial di wilayah yang berada di luar distribusi data latih RM Karena alasan ini, RLHF tidak bisa dijalankan dalam terlalu banyak langkah optimisasi; setelah beberapa ratus/ribuan langkah, prosesnya harus dihentikan karena optimisasi mulai menipu RM Ini bukan RL seperti pada AlphaGo Mengapa RLHF tetap berguna untuk membangun LLM Assistant RLHF mendapat manfaat dari kesenjangan antara Generator (pembangkit) dan Discriminator (pembeda) Artinya, untuk banyak jenis masalah, jauh lebih mudah bagi penilai manusia memilih jawaban terbaik dari beberapa kandidat daripada menulis jawaban ideal dari nol Contoh yang baik adalah prompt seperti "buat puisi tentang klip", di mana memilih puisi yang bagus dari beberapa kandidat lebih mudah RLHF adalah cara untuk memanfaatkan kesenjangan "kemudahan" dalam supervisi manusia ini Selain itu, RLHF juga berguna untuk mengurangi halusinasi (menghasilkan informasi yang salah) Jika RM adalah model yang cukup kuat untuk menangkap saat LLM mengarang sesuatu selama pelatihan, maka ia bisa mempelajari cara memberi penalti dengan reward rendah, sehingga model diajarkan untuk tidak suka mengambil risiko pada fakta yang tidak diyakininya Namun, halusinasi dan cara mitigasinya yang memuaskan adalah topik yang sepenuhnya berbeda Kesimpulannya, "RLHF berguna, tetapi bukan RL yang sesungguhnya" Sampai sekarang, belum ada contoh yang meyakinkan tentang pencapaian dan pembuktian RL "nyata" tingkat produksi pada LLM dalam skala besar di domain terbuka Secara intuitif, ini juga karena sangat sulit mendapatkan penghargaan yang nyata dalam pemecahan masalah domain terbuka (misalnya, seperti menang dalam permainan) Hal ini menarik dalam lingkungan tertutup dan mirip permainan seperti baduk, di mana dinamika terbatas dan fungsi reward mudah dievaluasi serta tidak bisa ditipu Misalnya, bagaimana kita bisa memberi reward yang objektif untuk peringkasan dokumen, menjawab pertanyaan yang agak ambigu, membuat lelucon, atau menulis ulang kode Java ke Python? Jalan ke arah itu pada prinsipnya bukan mustahil, tetapi juga tidak sepele dan membutuhkan pemikiran kreatif Namun, siapa pun yang dapat menyelesaikan masalah ini secara meyakinkan akan bisa menjalankan RL yang sesungguhnya Jenis RL yang membuat AlphaGo bisa mengalahkan manusia dalam baduk Orang yang menyelesaikan masalah ini akan bisa membuat LLM yang melampaui manusia dalam pemecahan masalah domain terbuka

(twitter.com/karpathy)

8 poin oleh xguru 2024-08-09 | 1 komentar | Bagikan ke WhatsApp

Reinforcement Learning from Human Feedback (RLHF) adalah tahap utama ketiga (dan terakhir) dalam pelatihan LLM setelah pretraining dan supervised finetuning (SFT)
- Menurut saya, RLHF hanyalah sebagian kecil dari RL, dan hal ini belum banyak diketahui
- RLHF sebenarnya belum cukup layak disebut sebagai RL (reinforcement learning)
- Sebagai contoh, AlphaGo dilatih dengan RL yang sesungguhnya, dan jika dilatih dengan RLHF, kemungkinan besar tidak akan mencapai hasil seperti sekarang
Apa yang akan terjadi jika AlphaGo dilatih dengan RLHF?
- Penilai manusia akan diberi dua keadaan papan baduk dan diminta memilih mana yang lebih baik
- Sekitar 100 ribu perbandingan seperti ini dikumpulkan, lalu jaringan saraf "Reward Model" (RM, model penghargaan) dilatih untuk meniru penilaian manusia (Vibe Check)
- RL kemudian dijalankan berdasarkan model penghargaan ini untuk mempelajari langkah-langkah yang mendapat penilaian baik
- Namun, pendekatan ini kemungkinan tidak akan menghasilkan performa yang berarti dalam baduk
Dua alasan utama mengapa RLHF tidak cocok untuk AlphaGo
- Pertama, vibe bisa menyesatkan. Penghargaan ini bukan penghargaan kemenangan yang sebenarnya, melainkan tujuan proxy yang tidak akurat
- Kedua, dalam proses optimisasi RL, besar kemungkinan model penghargaan memberi skor tinggi pada keadaan abnormal yang berada di luar cakupan data latih, sehingga optimisasi menjadi terdistorsi
  - RM adalah jaringan saraf besar dengan miliaran parameter yang meniru vibe
Masalah saat menerapkan RLHF pada LLM
- Model penghargaan pada LLM juga cenderung memberi skor tinggi pada respons yang kemungkinan disukai penilai manusia
  - Model penghargaan ini bukan menyelesaikan masalah yang "sebenarnya", melainkan hanya tujuan proxy yang menilai respons yang tampaknya akan disukai manusia
- RLHF tidak bisa dijalankan terlalu lama, karena model dengan cepat belajar menjawab dengan cara yang menipu model penghargaan
- Kita bisa melihat asisten LLM mulai merespons dengan hal aneh seperti "The the the the the the"
- Ini terlihat lucu, tetapi RM menganggapnya sangat bagus
- Artinya, model menemukan contoh adversarial di wilayah yang berada di luar distribusi data latih RM
- Karena alasan ini, RLHF tidak bisa dijalankan dalam terlalu banyak langkah optimisasi; setelah beberapa ratus/ribuan langkah, prosesnya harus dihentikan karena optimisasi mulai menipu RM
- Ini bukan RL seperti pada AlphaGo
Mengapa RLHF tetap berguna untuk membangun LLM Assistant
- RLHF mendapat manfaat dari kesenjangan antara Generator (pembangkit) dan Discriminator (pembeda)
  - Artinya, untuk banyak jenis masalah, jauh lebih mudah bagi penilai manusia memilih jawaban terbaik dari beberapa kandidat daripada menulis jawaban ideal dari nol
  - Contoh yang baik adalah prompt seperti "buat puisi tentang klip", di mana memilih puisi yang bagus dari beberapa kandidat lebih mudah
- RLHF adalah cara untuk memanfaatkan kesenjangan "kemudahan" dalam supervisi manusia ini
- Selain itu, RLHF juga berguna untuk mengurangi halusinasi (menghasilkan informasi yang salah)
  - Jika RM adalah model yang cukup kuat untuk menangkap saat LLM mengarang sesuatu selama pelatihan, maka ia bisa mempelajari cara memberi penalti dengan reward rendah, sehingga model diajarkan untuk tidak suka mengambil risiko pada fakta yang tidak diyakininya
  - Namun, halusinasi dan cara mitigasinya yang memuaskan adalah topik yang sepenuhnya berbeda
Kesimpulannya, "RLHF berguna, tetapi bukan RL yang sesungguhnya"
- Sampai sekarang, belum ada contoh yang meyakinkan tentang pencapaian dan pembuktian RL "nyata" tingkat produksi pada LLM dalam skala besar di domain terbuka
- Secara intuitif, ini juga karena sangat sulit mendapatkan penghargaan yang nyata dalam pemecahan masalah domain terbuka (misalnya, seperti menang dalam permainan)
- Hal ini menarik dalam lingkungan tertutup dan mirip permainan seperti baduk, di mana dinamika terbatas dan fungsi reward mudah dievaluasi serta tidak bisa ditipu
- Misalnya, bagaimana kita bisa memberi reward yang objektif untuk peringkasan dokumen, menjawab pertanyaan yang agak ambigu, membuat lelucon, atau menulis ulang kode Java ke Python?
  - Jalan ke arah itu pada prinsipnya bukan mustahil, tetapi juga tidak sepele dan membutuhkan pemikiran kreatif
  - Namun, siapa pun yang dapat menyelesaikan masalah ini secara meyakinkan akan bisa menjalankan RL yang sesungguhnya
    - Jenis RL yang membuat AlphaGo bisa mengalahkan manusia dalam baduk
  - Orang yang menyelesaikan masalah ini akan bisa membuat LLM yang melampaui manusia dalam pemecahan masalah domain terbuka

1 komentar

xguru 2024-08-09

Pendapat Hacker News

Asisten coding AI akan berkembang pesat dalam beberapa tahun ke depan
- Chat AI sulit dinilai kualitasnya karena tidak memiliki fungsi reward yang jelas
- AI untuk coding dapat menjalankan loop tanpa batas seperti menulis test, menulis kode, mengompilasi, dan memeriksa test case yang gagal
- Proses ini dapat digunakan sebagai data pelatihan untuk model AI coding masa depan
- Model bahasa juga akan menunjukkan hasil yang luar biasa dalam pembuktian teorema matematika
- Perangkat lunak verifikasi teorema memberikan umpan balik 100% akurat sehingga memungkinkan reinforcement learning
- Verifikasi formal atas kebenaran program itu membosankan, tetapi LLM dapat mengubah hal ini
- Anotasi yang dihasilkan LLM dapat digunakan oleh engine untuk membuktikan kebenaran
Metode DIY murah yang mirip dengan RLHF adalah melakukan fine-tuning pada model untuk menambahkan skor ke output
- RLHF diperlukan karena kita tidak bisa menulis fungsi loss untuk menghasilkan jawaban yang baik
- Model dasar menghasilkan n completion untuk sebuah prompt, lalu skor diberikan secara manual
- Setelah itu, pasangan prompt => (completion, skor) menjadi set pelatihan
- Setelah model dilatih, jika skor yang diinginkan disertakan dalam prompt, model akan mencoba menghasilkan jawaban yang sesuai dengan skor tersebut
Masalah berbagai algoritme ML yang "memainkan" fungsi reward mirip dengan masalah di bidang keuangan dan ekonomi
- Jika orang mencoba mendapatkan uang tanpa melakukan pekerjaan yang produktif, banyak hal menjadi tidak produktif
- Untuk meredakannya, dibutuhkan sistem yang menghukum upaya memainkan fungsi reward
- Sistem ini harus dapat memahami nilai nyata dan mengidentifikasi kasus ketika fungsi reward tinggi tetapi nilainya rendah
Karpathy jelas jauh lebih paham soal topik ini, tetapi postingan ini terasa seperti ada sesuatu yang kurang
- Go adalah permainan yang terlalu kompleks untuk diselesaikan manusia
- Tujuan LLM adalah meniru manusia secara sempurna
- AlphaGo dan Stockfish dapat memajukan pemahaman tentang permainan, tetapi LLM tidak dapat memperluas batas bahasa
- Karena LLM pada dasarnya adalah model imitasi, RLHF lebih bermakna di ranah LLM
Saya penasaran apa "kesenjangan" antara LLM berbasis transformer saat ini dan prediksi sekuens yang optimal
- LLM saat ini memiliki fungsi tujuan sederhana yang meminimalkan cross-entropy prediksi token selama pelatihan
- Solomonoff induction mencapai prediksi sekuens yang optimal
- Saya penasaran seberapa berbeda percakapan antara SI dan GPT4
- AGI membutuhkan sesuatu yang lebih dari sekadar prediksi sekuens yang optimal
- Fungsi tujuan yang berorientasi pada manusia adalah memaksimalkan probabilitas memberikan jawaban yang memuaskan pengguna
- Tetapi karena ada banyak pengguna, cara agregasinya menjadi masalah
- Karpathy menyinggung masalah ini
Bidang pembuktian seperti LEAN memiliki state, action, ukuran kemajuan, dan state tujuan akhir
- Jika Karpathy fokus pada otomatisasi pembuktian LEAN, itu bisa mengubah matematika selamanya
AlphaGo tidak memiliki umpan balik manusia, tetapi tetap belajar dari manusia
- AlphaZero menyingkirkan pengaruh manusia dan menggunakan reinforcement learning murni
Makalah SPAG adalah contoh reinforcement learning yang sesungguhnya dengan menggunakan model bahasa
- Dalam postingan Karpathy, yang hilang adalah "skala" dan "domain terbuka"
- Permainan bahasa adversarial tampak menjanjikan
Kesimpulan bahwa LLM + RL akan melampaui manusia dalam pemecahan masalah domain terbuka masih kurang dasar yang kuat

"RLHF hanyalah bagian kecil dari RL." - Andrej Karpathy

Bacaan terkait

1 komentar

Pendapat Hacker News