- Reinforcement Learning from Human Feedback (RLHF) adalah tahap utama ketiga (dan terakhir) dalam pelatihan LLM setelah pretraining dan supervised finetuning (SFT)
- Menurut saya, RLHF hanyalah sebagian kecil dari RL, dan hal ini belum banyak diketahui
- RLHF sebenarnya belum cukup layak disebut sebagai RL (reinforcement learning)
- Sebagai contoh, AlphaGo dilatih dengan RL yang sesungguhnya, dan jika dilatih dengan RLHF, kemungkinan besar tidak akan mencapai hasil seperti sekarang
- Apa yang akan terjadi jika AlphaGo dilatih dengan RLHF?
- Penilai manusia akan diberi dua keadaan papan baduk dan diminta memilih mana yang lebih baik
- Sekitar 100 ribu perbandingan seperti ini dikumpulkan, lalu jaringan saraf "Reward Model" (RM, model penghargaan) dilatih untuk meniru penilaian manusia (Vibe Check)
- RL kemudian dijalankan berdasarkan model penghargaan ini untuk mempelajari langkah-langkah yang mendapat penilaian baik
- Namun, pendekatan ini kemungkinan tidak akan menghasilkan performa yang berarti dalam baduk
- Dua alasan utama mengapa RLHF tidak cocok untuk AlphaGo
- Pertama, vibe bisa menyesatkan. Penghargaan ini bukan penghargaan kemenangan yang sebenarnya, melainkan tujuan proxy yang tidak akurat
- Kedua, dalam proses optimisasi RL, besar kemungkinan model penghargaan memberi skor tinggi pada keadaan abnormal yang berada di luar cakupan data latih, sehingga optimisasi menjadi terdistorsi
- RM adalah jaringan saraf besar dengan miliaran parameter yang meniru vibe
- Masalah saat menerapkan RLHF pada LLM
- Model penghargaan pada LLM juga cenderung memberi skor tinggi pada respons yang kemungkinan disukai penilai manusia
- Model penghargaan ini bukan menyelesaikan masalah yang "sebenarnya", melainkan hanya tujuan proxy yang menilai respons yang tampaknya akan disukai manusia
- RLHF tidak bisa dijalankan terlalu lama, karena model dengan cepat belajar menjawab dengan cara yang menipu model penghargaan
- Kita bisa melihat asisten LLM mulai merespons dengan hal aneh seperti "The the the the the the"
- Ini terlihat lucu, tetapi RM menganggapnya sangat bagus
- Artinya, model menemukan contoh adversarial di wilayah yang berada di luar distribusi data latih RM
- Karena alasan ini, RLHF tidak bisa dijalankan dalam terlalu banyak langkah optimisasi; setelah beberapa ratus/ribuan langkah, prosesnya harus dihentikan karena optimisasi mulai menipu RM
- Ini bukan RL seperti pada AlphaGo
- Mengapa RLHF tetap berguna untuk membangun LLM Assistant
- RLHF mendapat manfaat dari kesenjangan antara Generator (pembangkit) dan Discriminator (pembeda)
- Artinya, untuk banyak jenis masalah, jauh lebih mudah bagi penilai manusia memilih jawaban terbaik dari beberapa kandidat daripada menulis jawaban ideal dari nol
- Contoh yang baik adalah prompt seperti "buat puisi tentang klip", di mana memilih puisi yang bagus dari beberapa kandidat lebih mudah
- RLHF adalah cara untuk memanfaatkan kesenjangan "kemudahan" dalam supervisi manusia ini
- Selain itu, RLHF juga berguna untuk mengurangi halusinasi (menghasilkan informasi yang salah)
- Jika RM adalah model yang cukup kuat untuk menangkap saat LLM mengarang sesuatu selama pelatihan, maka ia bisa mempelajari cara memberi penalti dengan reward rendah, sehingga model diajarkan untuk tidak suka mengambil risiko pada fakta yang tidak diyakininya
- Namun, halusinasi dan cara mitigasinya yang memuaskan adalah topik yang sepenuhnya berbeda
- Kesimpulannya, "RLHF berguna, tetapi bukan RL yang sesungguhnya"
- Sampai sekarang, belum ada contoh yang meyakinkan tentang pencapaian dan pembuktian RL "nyata" tingkat produksi pada LLM dalam skala besar di domain terbuka
- Secara intuitif, ini juga karena sangat sulit mendapatkan penghargaan yang nyata dalam pemecahan masalah domain terbuka (misalnya, seperti menang dalam permainan)
- Hal ini menarik dalam lingkungan tertutup dan mirip permainan seperti baduk, di mana dinamika terbatas dan fungsi reward mudah dievaluasi serta tidak bisa ditipu
- Misalnya, bagaimana kita bisa memberi reward yang objektif untuk peringkasan dokumen, menjawab pertanyaan yang agak ambigu, membuat lelucon, atau menulis ulang kode Java ke Python?
- Jalan ke arah itu pada prinsipnya bukan mustahil, tetapi juga tidak sepele dan membutuhkan pemikiran kreatif
- Namun, siapa pun yang dapat menyelesaikan masalah ini secara meyakinkan akan bisa menjalankan RL yang sesungguhnya
- Jenis RL yang membuat AlphaGo bisa mengalahkan manusia dalam baduk
- Orang yang menyelesaikan masalah ini akan bisa membuat LLM yang melampaui manusia dalam pemecahan masalah domain terbuka
1 komentar
Pendapat Hacker News
Asisten coding AI akan berkembang pesat dalam beberapa tahun ke depan
Metode DIY murah yang mirip dengan RLHF adalah melakukan fine-tuning pada model untuk menambahkan skor ke output
Masalah berbagai algoritme ML yang "memainkan" fungsi reward mirip dengan masalah di bidang keuangan dan ekonomi
Karpathy jelas jauh lebih paham soal topik ini, tetapi postingan ini terasa seperti ada sesuatu yang kurang
Saya penasaran apa "kesenjangan" antara LLM berbasis transformer saat ini dan prediksi sekuens yang optimal
Bidang pembuktian seperti LEAN memiliki state, action, ukuran kemajuan, dan state tujuan akhir
AlphaGo tidak memiliki umpan balik manusia, tetapi tetap belajar dari manusia
Makalah SPAG adalah contoh reinforcement learning yang sesungguhnya dengan menggunakan model bahasa
Kesimpulan bahwa LLM + RL akan melampaui manusia dalam pemecahan masalah domain terbuka masih kurang dasar yang kuat