- Artikel ini membahas pola pembelajaran yang tidak biasa yang diamati dalam proses fine-tuning Large Language Models (LLM), di mana model tampak dapat belajar secara efektif dari satu contoh saja.
- Hasil pengamatan ini bertentangan dengan pemahaman umum tentang efisiensi sampel pada jaringan saraf, yang biasanya memerlukan beberapa contoh agar pembelajaran efektif.
- Para penulis melakukan serangkaian eksperimen untuk memverifikasi fenomena ini, dan hasilnya mendukung hipotesis bahwa LLM dapat dengan cepat mengingat input.
- Proses pembelajaran jaringan saraf melibatkan pemberian contoh input dan output, lalu melatih model agar memprediksi output berdasarkan input tersebut. Proses ini diulang berkali-kali (epoch) agar model dapat belajar secara efektif.
- Saat melatih model untuk kompetisi Kaggle, para penulis mengamati penurunan loss yang tajam di akhir setiap epoch. Hal ini tidak biasa dan pada awalnya dicurigai sebagai bug.
- Para penulis dan pengembang lain di komunitas menemukan pola serupa meski menggunakan loop pelatihan dan metode yang berbeda, yang menunjukkan bahwa ini bukan bug melainkan karakteristik fine-tuning LLM.
- Hipotesisnya adalah bahwa kurva pelatihan ini menunjukkan overfitting, yang berarti model belajar mengenali input hanya dari satu atau dua contoh.
- Para penulis melakukan eksperimen menggunakan jadwal learning rate yang berbeda, dan mengamati bahwa model dengan cepat belajar mengenali contoh bahkan setelah hanya melihatnya satu kali.
- Para penulis mengusulkan bahwa large language model yang telah dipra-latih mungkin memiliki permukaan loss yang sangat halus di area yang dekat dengan loss minimum, sehingga memungkinkan mereka belajar cepat dari satu contoh.
- Pembelajaran yang sangat cepat ini dapat menantang metode pelatihan tradisional, dan dapat memperburuk masalah catastrophic forgetting, yaitu ketika model melupakan informasi yang telah dipelajari sebelumnya saat informasi baru diperkenalkan.
- Para penulis mengusulkan beberapa strategi mitigasi yang mungkin, seperti meningkatkan penggunaan teknik seperti dropout atau stochastic depth, atau menggunakan campuran berbagai dataset selama proses pelatihan.
- Para penulis juga mengusulkan penelitian lanjutan dan hipotesis alternatif untuk lebih memahami fenomena ini serta implikasinya terhadap pelatihan dan penggunaan LLM.
1 komentar
Pendapat Hacker News