Andrej Karpathy: LLM membutuhkan "pembelajaran system prompt"

xguru · 2025-05-13T09:03:46+09:00

Ia berpendapat bahwa LLM memerlukan paradigma pembelajaran ketiga yang melampaui pretraining dan fine-tuning yang ada, yakni "System Prompt Learning" Pretraining mempelajari pengetahuan, dan fine-tuning mempelajari perilaku kebiasaan, sementara keduanya sama-sama melibatkan perubahan parameter model Sebaliknya, cara manusia belajar lebih mirip dengan perubahan system prompt, yaitu berbentuk "menghadapi situasi masalah → memahaminya lalu menyusun strategi → mengingatnya secara eksplisit untuk berikutnya" Contoh: mirip catatan untuk diri sendiri seperti, "kalau menghadapi jenis masalah seperti ini, sebaiknya coba pendekatan/solusi seperti ini" Ini berbeda dari memory konteks pengguna pada umumnya; gagasan ini lebih dekat pada penyimpanan eksplisit strategi pemecahan masalah dan prosedur penalaran secara menyeluruh Manusia mengingat atau mencatat strategi seperti ini secara sadar, tetapi LLM masih seperti tokoh utama di Memento yang belum memiliki scratchpad semacam itu Pembelajaran berbasis strategi seperti ini bisa menjadi jalur umpan balik yang jauh lebih tingkat tinggi dan efisien data dibandingkan reinforcement learning (RL) berbasis sinyal hadiah System prompt Claude yang baru-baru ini bocor memiliki panjang sekitar 17.000 kata, dan di dalamnya dijelaskan secara rinci bukan hanya preferensi perilaku sederhana tetapi juga strategi pemecahan masalah umum Contoh: ketika diminta menghitung jumlah kata, Claude tidak langsung menjawab, melainkan berpikir secara bertahap, memberi nomor pada setiap kata/huruf/karakter lalu melewati prosedur penghitungan yang eksplisit sebelum merespons Pengetahuan seperti ini bukan jenis yang harus segera atau secara eksklusif diinternalisasi ke dalam bobot, dan juga tidak seharusnya diberikan satu per satu dengan system prompt yang ditulis manual oleh manusia Sebaliknya, pendekatan ini dapat diwujudkan lewat bentuk pembelajaran baru, yaitu system prompt learning, yang secara setup mirip dengan RL, tetapi cara belajarnya lebih dekat ke pengeditan berbasis teks (edit) daripada gradient descent Sebagian besar system prompt LLM dapat ditulis melalui system prompt learning, dan ini akan mirip seperti LLM menulis sendiri buku tentang cara memecahkan masalah Cara LLM mengedit/memperbarui prompt-nya sendiri seperti ini berpotensi menjadi paradigma pembelajaran baru yang kuat Namun, masih ada sejumlah tantangan yang perlu diselesaikan: Bagaimana pengeditan teks ini akan bekerja? Bisakah model mempelajari sistem pengeditan itu sendiri, atau haruskah ia mempelajarinya? Mekanisme apa yang diperlukan agar, seperti manusia, pengetahuan strategi yang eksplisit dapat dipindahkan secara bertahap ke kebiasaan/bobot yang terinternalisasi?

(x.com/karpathy)

22 poin oleh xguru 2025-05-13 | 1 komentar | Bagikan ke WhatsApp

Ia berpendapat bahwa LLM memerlukan paradigma pembelajaran ketiga yang melampaui pretraining dan fine-tuning yang ada, yakni "System Prompt Learning"
Pretraining mempelajari pengetahuan, dan fine-tuning mempelajari perilaku kebiasaan, sementara keduanya sama-sama melibatkan perubahan parameter model
Sebaliknya, cara manusia belajar lebih mirip dengan perubahan system prompt, yaitu berbentuk "menghadapi situasi masalah → memahaminya lalu menyusun strategi → mengingatnya secara eksplisit untuk berikutnya"
- Contoh: mirip catatan untuk diri sendiri seperti, "kalau menghadapi jenis masalah seperti ini, sebaiknya coba pendekatan/solusi seperti ini"
Ini berbeda dari memory konteks pengguna pada umumnya; gagasan ini lebih dekat pada penyimpanan eksplisit strategi pemecahan masalah dan prosedur penalaran secara menyeluruh
Manusia mengingat atau mencatat strategi seperti ini secara sadar, tetapi LLM masih seperti tokoh utama di Memento yang belum memiliki scratchpad semacam itu
Pembelajaran berbasis strategi seperti ini bisa menjadi jalur umpan balik yang jauh lebih tingkat tinggi dan efisien data dibandingkan reinforcement learning (RL) berbasis sinyal hadiah
System prompt Claude yang baru-baru ini bocor memiliki panjang sekitar 17.000 kata, dan di dalamnya dijelaskan secara rinci bukan hanya preferensi perilaku sederhana tetapi juga strategi pemecahan masalah umum

Contoh: ketika diminta menghitung jumlah kata, Claude tidak langsung menjawab, melainkan berpikir secara bertahap,
memberi nomor pada setiap kata/huruf/karakter lalu melewati prosedur penghitungan yang eksplisit sebelum merespons
Pengetahuan seperti ini bukan jenis yang harus segera atau secara eksklusif diinternalisasi ke dalam bobot, dan juga tidak seharusnya diberikan satu per satu dengan system prompt yang ditulis manual oleh manusia
Sebaliknya, pendekatan ini dapat diwujudkan lewat bentuk pembelajaran baru, yaitu system prompt learning, yang secara setup mirip dengan RL,
tetapi cara belajarnya lebih dekat ke pengeditan berbasis teks (edit) daripada gradient descent
Sebagian besar system prompt LLM dapat ditulis melalui system prompt learning, dan ini akan mirip seperti LLM menulis sendiri buku tentang cara memecahkan masalah
Cara LLM mengedit/memperbarui prompt-nya sendiri seperti ini berpotensi menjadi paradigma pembelajaran baru yang kuat
- Namun, masih ada sejumlah tantangan yang perlu diselesaikan:
  - Bagaimana pengeditan teks ini akan bekerja?
  - Bisakah model mempelajari sistem pengeditan itu sendiri, atau haruskah ia mempelajarinya?
  - Mekanisme apa yang diperlukan agar, seperti manusia, pengetahuan strategi yang eksplisit dapat dipindahkan secara bertahap ke kebiasaan/bobot yang terinternalisasi?

1 komentar

parkindani 2025-05-13

Jika LLM bisa mengubah system prompt-nya sendiri, aturan untuk kebijakan itu pada akhirnya tetap harus ditentukan oleh manusia, dan mungkin yang tersisa nantinya hanya hal-hal seperti Tiga Hukum Robotika.

Andrej Karpathy: LLM membutuhkan "pembelajaran system prompt"

Bacaan terkait

1 komentar