2 poin oleh GN⁺ 2023-09-07 | 1 komentar | Bagikan ke WhatsApp
  • Artikel ini membahas pola pembelajaran yang tidak biasa yang diamati dalam proses fine-tuning Large Language Models (LLM), di mana model tampak dapat belajar secara efektif dari satu contoh saja.
  • Hasil pengamatan ini bertentangan dengan pemahaman umum tentang efisiensi sampel pada jaringan saraf, yang biasanya memerlukan beberapa contoh agar pembelajaran efektif.
  • Para penulis melakukan serangkaian eksperimen untuk memverifikasi fenomena ini, dan hasilnya mendukung hipotesis bahwa LLM dapat dengan cepat mengingat input.
  • Proses pembelajaran jaringan saraf melibatkan pemberian contoh input dan output, lalu melatih model agar memprediksi output berdasarkan input tersebut. Proses ini diulang berkali-kali (epoch) agar model dapat belajar secara efektif.
  • Saat melatih model untuk kompetisi Kaggle, para penulis mengamati penurunan loss yang tajam di akhir setiap epoch. Hal ini tidak biasa dan pada awalnya dicurigai sebagai bug.
  • Para penulis dan pengembang lain di komunitas menemukan pola serupa meski menggunakan loop pelatihan dan metode yang berbeda, yang menunjukkan bahwa ini bukan bug melainkan karakteristik fine-tuning LLM.
  • Hipotesisnya adalah bahwa kurva pelatihan ini menunjukkan overfitting, yang berarti model belajar mengenali input hanya dari satu atau dua contoh.
  • Para penulis melakukan eksperimen menggunakan jadwal learning rate yang berbeda, dan mengamati bahwa model dengan cepat belajar mengenali contoh bahkan setelah hanya melihatnya satu kali.
  • Para penulis mengusulkan bahwa large language model yang telah dipra-latih mungkin memiliki permukaan loss yang sangat halus di area yang dekat dengan loss minimum, sehingga memungkinkan mereka belajar cepat dari satu contoh.
  • Pembelajaran yang sangat cepat ini dapat menantang metode pelatihan tradisional, dan dapat memperburuk masalah catastrophic forgetting, yaitu ketika model melupakan informasi yang telah dipelajari sebelumnya saat informasi baru diperkenalkan.
  • Para penulis mengusulkan beberapa strategi mitigasi yang mungkin, seperti meningkatkan penggunaan teknik seperti dropout atau stochastic depth, atau menggunakan campuran berbagai dataset selama proses pelatihan.
  • Para penulis juga mengusulkan penelitian lanjutan dan hipotesis alternatif untuk lebih memahami fenomena ini serta implikasinya terhadap pelatihan dan penggunaan LLM.

1 komentar

 
GN⁺ 2023-09-07
Pendapat Hacker News
  • Diskusi artikel tentang kemampuan model bahasa besar (Large Language Models, LLMs) yang mengejutkan dalam mengingat dengan cepat dari satu contoh saja
  • Salah satu penulis posting mengatakan bahwa setelah bekerja dengan jaringan saraf selama 30 tahun, ia menganggap perilaku ini sebagai hal yang paling mengejutkan
  • Beberapa pembaca berpendapat bahwa istilah "terlalu percaya diri" yang digunakan dalam artikel menyesatkan, dan bahwa "overfitting" atau "belum terdefinisi" akan lebih akurat
  • Mengingat miliaran parameter dalam model generatif, dari sudut pandang pembelajaran mesin (Machine Learning, ML) pada umumnya, fenomena LLM yang belajar cepat dari satu contoh saja tidaklah mengejutkan
  • Diskusi tentang implikasi dari fakta bahwa sebagian besar LLM dilatih hanya dengan satu epoch, yang memunculkan persoalan overfitting
  • Seorang pengguna membagikan pengalaman pribadinya dengan ChatGPT, menekankan bahwa menyediakan materi dari pertanyaan yang belum pernah dilatih untuk LLM membantu menyelesaikan masalah
  • Beberapa pembaca mempertanyakan apakah LLM digunakan untuk memperkuat data pelatihannya sendiri, dan mengusulkan ide menambahkan input "bermimpi" atau sintetis ke data pelatihan
  • Perdebatan tentang judul artikel, dengan beberapa pembaca menganggapnya menyesatkan karena percaya bahwa belajar dari satu contoh itu diinginkan, tetapi mengingat bukanlah hal yang diinginkan
  • Beberapa pengguna membagikan pengalaman serupa tentang kurva loss saat melatih Vision Transformers (ViTs), dan menyarankan bahwa kurva loss yang aneh seperti ini mungkin merupakan ciri model berbasis Transformer
  • Rekomendasi karya terkait lain seperti "Mass-Editing Memory in a Transformer" dan "Locating and Editing Factual Associations in GPT" bagi mereka yang tertarik pada topik ini
  • Jika temuan artikel ini benar, hal itu dapat mendukung gagasan bahwa dataset kecil yang dikelola manusia mungkin lebih bernilai daripada dataset sintetis yang dihasilkan oleh LLM