-
Bagaimana perilaku kognitif memungkinkan penalar yang meningkatkan diri, atau empat kebiasaan STaRs yang sangat efektif
-
Penalaran saat inferensi: Ini adalah paradigma yang kuat yang memungkinkan model bahasa memikirkan masalah kompleks dengan lebih lama dan lebih hati-hati. Reinforcement learning (RL) dapat mendorong peningkatan diri model bahasa pada tugas yang dapat diverifikasi, tetapi beberapa model menunjukkan hasil yang signifikan sementara model lain cepat mengalami stagnasi. Sebagai contoh, Qwen-2.5-3B jauh mengungguli Llama-3.2-3B di bawah pelatihan RL yang sama.
-
Sifat intrinsik: Muncul pertanyaan tentang sifat intrinsik yang memungkinkan peningkatan diri yang efektif. Untuk menyelidikinya, diperkenalkan kerangka kerja yang menganalisis empat perilaku kognitif utama: verifikasi, backtracking, penetapan subtujuan, dan backward chaining. Perilaku ini digunakan oleh pemecah masalah manusia tingkat ahli dan model bahasa yang berhasil.
-
Hasil eksperimen: Qwen secara alami menunjukkan perilaku penalaran ini, sedangkan Llama pada awalnya kekurangan perilaku tersebut. Dalam eksperimen sistematis menggunakan dataset perilaku yang terkontrol, ditemukan bahwa menyiapkan Llama dengan contoh yang mencakup perilaku penalaran ini menghasilkan peningkatan yang signifikan selama RL, sehingga menyamai atau melampaui performa Qwen.
-
Pentingnya perilaku penalaran: Kehadiran perilaku penalaran lebih penting daripada ketepatan jawaban yang benar. Model yang disiapkan dengan solusi yang salah tetapi mengandung pola penalaran yang benar mencapai performa yang serupa dengan model yang dilatih menggunakan solusi yang benar.
-
Pra-pelatihan lanjutan: Melalui penyaringan yang memperkuat perilaku penalaran menggunakan data OpenWebMath, model Llama dapat mengikuti lintasan peningkatan diri Qwen. Ini menegaskan hubungan mendasar antara perilaku penalaran awal dan kemampuan untuk berkembang, serta menjelaskan mengapa beberapa model bahasa dapat memanfaatkan komputasi tambahan secara efektif.
Belum ada komentar.