Microsoft Agent Lightning: Framework Pelatihan Reinforcement Learning untuk Agen AI Tanpa Perlu Mengubah Kode
(aisparkup.com)Agent Lightning yang dirilis oleh Microsoft Research adalah framework inovatif yang memungkinkan pelatihan agen AI dengan reinforcement learning (RL) hampir tanpa mengubah kode agen yang sudah ada. Framework ini kompatibel dengan berbagai framework agen seperti LangChain dan AutoGen, serta menunjukkan hasil nyata seperti meningkatkan akurasi dari 73.2% menjadi 80.4% pada pengujian agen SQL.
Fitur utama
- Arsitektur Training-Agent Disaggregation: Memisahkan sepenuhnya eksekusi agen dan pelatihan RL. Dengan desain sidecar, framework ini mewujudkan pengumpulan data non-intrusif (prompt, pemanggilan tool, sinyal reward) sehingga memungkinkan perubahan kode nol.
- Independensi framework: Melalui API yang kompatibel dengan OpenAI, agen apa pun seperti LangChain, OpenAI Agent SDK, dan CrewAI dapat langsung diintegrasikan.
- Algoritma GRPO: Varian dari PPO yang belajar secara efisien dalam penggunaan memori melalui perbandingan kinerja relatif dalam grup. LightningRL memecah interaksi multi-turn yang kompleks menjadi transition untuk menangani credit assignment.
Contoh penerapan nyata: agen SQL
Pelatihan dilakukan pada agen SQL berbasis LangGraph (mengubah pertanyaan bahasa alami menjadi kueri SQL, mengeksekusinya, lalu mengulang perbaikan error):
- Proses pelatihan: Dimulai hanya dengan menjalankan server lalu menghubungkan klien. Contoh: menggunakan model Qwen2.5-Coder-3B.
- Hasil: Pada dataset Spider, akurasi meningkat dari 73.2% → 80.4%, dan jumlah rata-rata transition turun dari 3.30 → 2.60 sehingga efisiensi meningkat. Model 7B mencapai 84.4%.
Instalasi dan penggunaan
pip install agentlightning(tambahan: opsi [apo] atau [verl]).- Contoh seperti Text-to-SQL dan RAG tersedia di GitHub examples. Optimisasi selektif juga dimungkinkan pada sistem multi-agen.
- Algoritma yang didukung: GRPO/PPO, Supervised Fine-tuning, APO (optimisasi prompt).
Prospek ke depan
Sebagai proyek open source, framework ini mendorong aktivasi komunitas (seperti DeepWerewolf). Ke depannya, framework ini direncanakan akan diperluas dengan mekanisme reward yang lebih kaya, Off-policy RL, pembelajaran kurikulum, dan lainnya. Dengan memisahkan pengembangan dan optimisasi agen, pendekatan ini diperkirakan akan membuka era agen adaptif.
Belum ada komentar.