-
Kemajuan LLM untuk penalaran System 2
- Tim peneliti termasuk Violet Xiang mengusulkan kerangka baru bernama Meta Chain-of-Thought (Meta-CoT)
- Meta-CoT memperluas Chain-of-Thought (CoT) yang ada dengan memodelkan secara eksplisit penalaran mendasar yang diperlukan untuk mencapai CoT tertentu
- Mereka menyajikan bukti empiris bahwa model-model mutakhir menunjukkan perilaku yang selaras dengan pencarian dalam konteks, serta mengeksplorasi metode pembuatan Meta-CoT melalui pengawasan proses, pembuatan data sintetis, dan algoritme pencarian
-
Pipeline pembuatan dan pelatihan Meta-CoT
- Disajikan pipeline pelatihan yang konkret untuk menghasilkan Meta-CoT
- Termasuk cara melatih model melalui instruction tuning yang mencakup jejak pencarian yang dilinearkan dan reinforcement learning
-
Pertanyaan terbuka dalam riset
- Dibahas berbagai pertanyaan riset seperti scaling law, peran verifier, dan kemungkinan menemukan algoritme penalaran baru
- Riset ini memberikan peta jalan teoretis dan praktis untuk mewujudkan Meta-CoT pada LLM, sehingga memungkinkan penalaran AI yang lebih kuat dan lebih mirip manusia
Belum ada komentar.