Microsoft Agent Lightning: Framework Pelatihan Reinforcement Learning untuk Agen AI Tanpa Perlu Mengubah Kode

(aisparkup.com)

13 poin oleh davespark 2025-10-27 | Belum ada komentar. | Bagikan ke WhatsApp

Agent Lightning yang dirilis oleh Microsoft Research adalah framework inovatif yang memungkinkan pelatihan agen AI dengan reinforcement learning (RL) hampir tanpa mengubah kode agen yang sudah ada. Framework ini kompatibel dengan berbagai framework agen seperti LangChain dan AutoGen, serta menunjukkan hasil nyata seperti meningkatkan akurasi dari 73.2% menjadi 80.4% pada pengujian agen SQL.

Fitur utama

Arsitektur Training-Agent Disaggregation: Memisahkan sepenuhnya eksekusi agen dan pelatihan RL. Dengan desain sidecar, framework ini mewujudkan pengumpulan data non-intrusif (prompt, pemanggilan tool, sinyal reward) sehingga memungkinkan perubahan kode nol.
Independensi framework: Melalui API yang kompatibel dengan OpenAI, agen apa pun seperti LangChain, OpenAI Agent SDK, dan CrewAI dapat langsung diintegrasikan.
Algoritma GRPO: Varian dari PPO yang belajar secara efisien dalam penggunaan memori melalui perbandingan kinerja relatif dalam grup. LightningRL memecah interaksi multi-turn yang kompleks menjadi transition untuk menangani credit assignment.

Contoh penerapan nyata: agen SQL

Pelatihan dilakukan pada agen SQL berbasis LangGraph (mengubah pertanyaan bahasa alami menjadi kueri SQL, mengeksekusinya, lalu mengulang perbaikan error):

Proses pelatihan: Dimulai hanya dengan menjalankan server lalu menghubungkan klien. Contoh: menggunakan model Qwen2.5-Coder-3B.
Hasil: Pada dataset Spider, akurasi meningkat dari 73.2% → 80.4%, dan jumlah rata-rata transition turun dari 3.30 → 2.60 sehingga efisiensi meningkat. Model 7B mencapai 84.4%.

Instalasi dan penggunaan

pip install agentlightning (tambahan: opsi [apo] atau [verl]).
Contoh seperti Text-to-SQL dan RAG tersedia di GitHub examples. Optimisasi selektif juga dimungkinkan pada sistem multi-agen.
Algoritma yang didukung: GRPO/PPO, Supervised Fine-tuning, APO (optimisasi prompt).

Prospek ke depan

Sebagai proyek open source, framework ini mendorong aktivasi komunitas (seperti DeepWerewolf). Ke depannya, framework ini direncanakan akan diperluas dengan mekanisme reward yang lebih kaya, Off-policy RL, pembelajaran kurikulum, dan lainnya. Dengan memisahkan pengembangan dan optimisasi agen, pendekatan ini diperkirakan akan membuka era agen adaptif.