- Menyederhanakan penyesuaian halus agen berbasis LLM melalui pembelajaran penguatan (RL)
- Saat ini, LlamaGym menyediakan satu kelas abstrak
Agent yang memungkinkan eksperimen dan iterasi cepat untuk prompting agen dan hyperparameter di lingkungan Gym
- Pengguna dapat mendefinisikan agen berbasis LLM mereka sendiri dengan mengimplementasikan 3 metode abstrak pada kelas
Agent
Cara penggunaan
- Setelah memasang LlamaGym, buat agen pemain blackjack dengan mengimplementasikan 3 metode abstrak pada kelas
Agent.
- Tentukan LLM dasar dan instansiasikan agen, lalu tulis loop RL agar agen dapat bertindak, menerima hadiah, dan mengakhiri episode.
- Karena pembelajaran online melalui pembelajaran penguatan adalah bagian yang sulit, penyesuaian hyperparameter diperlukan, dan tahap fine-tuning terawasi dapat membantu.
Belum ada komentar.