Perilaku Kognitif yang Memungkinkan Reasoner Memperbaiki Diri

(arxiv.org)

2 poin oleh GN⁺ 2025-03-08 | 1 komentar | Bagikan ke WhatsApp

Saat membuat model bahasa memperbaiki diri lewat reinforcement learning pada masalah yang dapat diverifikasi, dalam kondisi yang sama Qwen-2.5-3B meningkat tajam di Countdown, sementara Llama-3.2-3B cepat stagnan
Perbedaan performa ini terkait dengan perilaku penalaran yang sudah dimiliki model awal, seperti verifikasi, backtracking, penetapan subtujuan, dan backward chaining
Sejak awal Qwen menunjukkan verifikasi dan backtracking secara lebih alami, sedangkan Llama kekurangan perilaku ini sehingga sulit memakai komputasi tambahan pada waktu pengujian secara efisien
Jika Llama dipriming dengan jejak penalaran sintetis yang memuat pola penalaran, bukan sekadar benar-salah jawaban, selama reinforcement learning ia menunjukkan lintasan perbaikan yang setara dengan Qwen
Melanjutkan prapelatihan dengan memfilter OpenWebMath juga menginduksi distribusi perilaku yang diperlukan pada Llama, sehingga merancang kebiasaan penalaran awal berdampak langsung pada performa perbaikan diri

Kemampuan memperbaiki diri yang berbeda meski memakai reinforcement learning yang sama

Inferensi pada waktu pengujian (test-time inference) digunakan sebagai cara agar model bahasa “berpikir” lebih lama dan lebih hati-hati pada masalah kompleks
Pendekatan untuk membuat model memperbaiki diri dengan menerapkan reinforcement learning (RL) pada masalah yang dapat diverifikasi bukan hal baru, tetapi metode sebelumnya stagnan setelah beberapa iterasi dan belum cukup mengeksplorasi cara memakai komputasi pada waktu pengujian secara efektif
Saat prosedur reinforcement learning yang sama diterapkan pada game Countdown, perbedaan antara dua model 3B tampak besar
- Qwen-2.5-3B meningkat tajam dalam kemampuan memecahkan masalah
- Llama-3.2-3B hanya mengalami peningkatan terbatas
Pertanyaan utamanya adalah sifat apa pada model bahasa awal yang menentukan kemungkinan perbaikan berikutnya
Kode tersedia di repositori GitHub

Empat perilaku penalaran yang membantu perbaikan diri

Objek analisisnya adalah empat perilaku kognitif yang dapat diidentifikasi dengan baik dari keluaran model
- Verifikasi (verification): memeriksa jawaban atau langkah antara secara sistematis
- Backtracking (backtracking): meninggalkan pendekatan yang gagal dan kembali ke pendekatan lain
- Penetapan subtujuan (subgoal setting): membagi masalah menjadi langkah-langkah yang dapat dikelola
- Backward chaining (backward chaining): mulai dari hasil yang diinginkan lalu menalar mundur ke input awal
Perilaku seperti ini mirip dengan cara pakar manusia memecahkan masalah
- Matematikawan memverifikasi setiap langkah pembuktian
- Saat menemukan kontradiksi, mereka melakukan backtracking
- Mereka membagi teorema kompleks menjadi lemma yang lebih sederhana
Keempat perilaku ini melampaui penalaran linear umum pada model bahasa, dan dapat menangkap penalaran yang mengeksplorasi serta memperbaiki beberapa jalur
Ada perilaku kognitif lain, tetapi keempat ini memiliki definisi yang jelas dan relatif mudah diidentifikasi dari keluaran model

Perbedaan perilaku awal Qwen dan Llama

Dalam analisis awal, Qwen menunjukkan perilaku penalaran yang diperlukan secara lebih alami
- Terutama verifikasi dan backtracking yang menonjol
Llama kekurangan perilaku semacam ini pada kondisi awal
Diajukan hipotesis bahwa perilaku penalaran tertentu harus ada dalam kebijakan awal agar urutan penalaran panjang dan komputasi tambahan pada waktu pengujian dapat dimanfaatkan secara efisien
Figure 1 membandingkan performa kedua model di Countdown, perubahan panjang respons selama reinforcement learning, dan pola kemunculan karakteristik penalaran tertentu

Priming perilaku: pola penalaran, bukan jawaban benar

Intervensi pertama adalah mempriming Llama dengan jejak penalaran sintetis yang berisi perilaku penalaran yang diinginkan
Setelah melihat contoh seperti ini, Llama meningkat tajam dalam reinforcement learning dan mencapai tingkat yang setara dengan lintasan performa Qwen
Jejak penalaran yang memuat backtracking memainkan peran yang sangat penting
Bahkan ketika dipriming dengan solusi tanpa jawaban yang benar, peningkatan performa serupa muncul selama pola penalaran yang tepat ada di dalamnya
Dalam eksperimen ini, faktor yang membedakan performa bukan jawaban benar itu sendiri, melainkan keberadaan perilaku penalaran

Mengubah distribusi perilaku lewat prapelatihan lanjutan

Prapelatihan lanjutan menggunakan data OpenWebMath juga menjadi objek eksperimen
Data difilter agar perilaku penalaran muncul lebih kuat
Data yang difilter direstrukturisasi ke format Query, Thought, Answer
Dengan melatih Llama memakai cara ini, pola perilaku yang diperlukan terinduksi dan komputasi pada waktu pengujian dapat digunakan lebih efisien
Hasilnya, lintasan perbaikan Llama berubah menjadi setara dengan Qwen

Kebiasaan penalaran awal menentukan kemungkinan perbaikan

Ada hubungan kuat antara perilaku penalaran awal model dan kemampuan memperbaiki diri
Perbedaan Qwen dan Llama menunjukkan bahwa prosedur reinforcement learning yang sama dapat menghasilkan hasil berbeda tergantung pola perilaku awal
Model yang memiliki perilaku penalaran yang tepat memanfaatkan komputasi tambahan untuk melakukan penalaran yang lebih panjang secara efektif
Model yang kekurangan perilaku ini dapat cepat stagnan meski berada dalam kondisi pelatihan yang sama
Memahami dan menginduksi perilaku penalaran awal terkait dengan pengembangan sistem AI yang benar-benar meningkatkan kemampuan pemecahan masalah

1 komentar

GN⁺ 2025-03-08

Komentar Hacker News

Bagian yang menarik adalah “empat perilaku kognitif inti yang digunakan baik oleh pemecah masalah manusia ahli maupun model bahasa yang sukses — verifikasi, kembali ke langkah sebelumnya, penetapan subtujuan, dan penalaran mundur”
Saat membuat AI menjadi lebih baik, mungkin saja tanpa sengaja kita juga menemukan cara untuk membuat kecerdasan manusia menjadi lebih baik
Baru-baru ini saat belajar untuk ujian, saya punya pengalaman pribadi yang mirip; ketika membaca soal latihan, saya berbicara keras-keras sambil meniru cara bernalar dan karakter Deepseek R1
Karena banyak membaca keluaran R1 yang panjang dan terperinci, otak saya pada dasarnya seperti di-fine-tune untuk tugas penalaran, dan saya rasa cara itu membantu saya mendapat nilai bagus di ujian
- Ini metode yang sudah terkenal. Menguraikan proses berpikir dengan kata-kata, baik diucapkan keras-keras maupun ditulis, adalah strategi lama untuk memastikan bahwa kita benar-benar berpikir, bukan sekadar melewatinya sambil lalu
  Ironisnya, saya juga melihat orang-orang khawatir bahwa penggunaan AI akan merampas kemampuan semacam ini dari manusia
  Namun tetap ada potensi di sini, dan saya sungguh berharap riset AI juga membawa kita menemukan cara untuk meningkatkan kecerdasan manusia
  Bahkan jika dilihat secara pesimistis, setidaknya ini akan menyingkap pendekatan yang dipakai orang secara tidak sadar; begitu kita tahu apa yang sedang kita lakukan, jauh lebih mudah untuk melatihnya dengan lebih baik
- Saya juga memakai metode ini untuk masalah pemrograman yang biasanya akan saya tunda lalu serahkan ke alam bawah sadar
  Menuliskan semua langkah berpikir secara nyata membantu merapikan langkah penalaran yang keliru atau jalan di tempat akibat keterbatasan memori kerja
  Setelah melihat cara AI berbasis penalaran berpikir, saya mulai melakukannya dengan lebih disiplin, dan itu tampak seperti teknik berpikir yang cukup berguna
  Model AI penalaran seperti ini membuat saya melihat pikiran saya sendiri pada level meta, dan menunjukkan alat yang bisa dipakai untuk memperbaikinya
  Senang rasanya mengetahui bukan hanya saya yang merasakan ini
- Berpikir keras-keras adalah praktik lama, sama seperti “rubber duck debugging” untuk diri sendiri
  Sebagai orang yang berasal dari garis keturunan leluhur yang berbicara sendiri saat memecahkan masalah, ini kadang menjadi sedikit kerugian dalam ujian yang diawasi. Monolog batin dan ucapan nyata itu cukup berbeda
- Para ilmuwan komputer tampaknya sedang cosplay jadi ilmuwan kognitif tanpa pernah mengambil satu pun kelas psikologi
- Keempat hal itu terdengar seperti satu algoritma kognitif yang terpadu. Caranya adalah memecah masalah menjadi subtujuan untuk membangun ontologi, memverifikasi pekerjaan dengan benar, berpikir mundur dan mencoba lagi untuk men-debug kesalahan, lalu bernalar balik dari hasil
  Pada akhirnya ini adalah satu algoritma untuk memecahkan masalah sulit, sebuah keterampilan yang bisa dilatih, dan makin dikuasai makin bisa membangun dirinya sendiri
Pada titik ini, dari judulnya saja saya tidak bisa membedakan apakah ini tren psikologi pengembangan diri atau makalah LLM
- Tak lama lagi mungkin akan ada LLM yang bernalar hanya berdasarkan prinsip pertama dari The Subtle Art of Not Giving a Fuck
Seberapa besar pengetahuan tentang teknik pelatihan AI membantu menemukan cara melatih manusia agar berpikir lebih baik?
- Kita sebenarnya sudah punya pengetahuan tentang cara makan agar terhindar dari kondisi ekstrem seperti obesitas, tetapi kita bisa melihat sendiri seberapa efektif hasilnya
  Sampai ada pil yang membuat orang berpikir lebih baik, hanya orang yang termotivasi yang akan mempraktikkannya, dan dalam kasus ini orang yang termotivasi kemungkinan besar memang sudah bisa melakukannya
- Karena punya latar belakang pendidikan, saya justru sering mengajukan pertanyaan sebaliknya. Mengapa teknik AI hampir tidak memanfaatkan apa yang kita ketahui tentang pembelajaran manusia untuk melatih AI yang lebih baik?
- Sejauh ini tampaknya belum ada sesuatu yang benar-benar menarik yang ditemukan
Bagian bahwa “model yang disiapkan dengan jawaban salah yang memuat pola penalaran yang benar menunjukkan performa mirip dengan model yang dilatih dengan jawaban benar” adalah salah satu bagian yang paling layak untuk direplikasi dalam studi lanjutan
Kadang saya melihat orang-orang di Reddit membicarakan pengalaman monolog batin, tetapi saya tidak punya monolog seperti itu. Setidaknya tidak dalam bentuk yang bisa diakses oleh bagian pikiran yang menyebut dirinya ‘aku’
Saya sering bertanya-tanya apakah monolog itu semacam ‘chain of thought’
Saya merasa mungkin fungsi perencanaan atau eksekutif saya kurang efektif dibanding orang lain karena saya tidak punya akses ke ‘umpan ide’ semacam itu
Meski begitu, untuk tugas seperti ini, memakai buku catatan kecil untuk ‘chain of thought’ jauh lebih efektif
Di sisi lain, saya mungkin juga lebih jarang mengalami perenungan berulang, keraguan diri, dan perilaku cemas yang rasanya wajar muncul jika sepanjang hari seperti ada seseorang berbicara di telinga; tapi ini sepertinya agak keluar dari topik
- Apakah di dalam pikiranmu sama sekali tidak terbentuk pikiran dengan cara verbal? Saya penasaran apakah kamu bisa membaca kalimat lalu mengenalinya sebagai kalimat di dalam pikiran, atau apakah itu juga tidak bisa
  Saya bukan meragukan, sungguh hanya penasaran. Sebagai orang dengan monolog batin yang sangat kuat, sulit membayangkan keadaan tanpa itu
- Saya bertanya karena benar-benar penasaran: kalau begitu, bagaimana penalaran beberapa langkah bekerja?
  Misalnya untuk soal matematika seperti 16 * 3 + 5, yang tiap langkahnya mudah tetapi membutuhkan beberapa langkah, bagaimana nilai 16 * 3 = 48 masuk ke semacam ‘register’ di otak, yaitu memori jangka pendek, lalu ditambah 5 hingga mencapai 53?
  16 * 3 + 5 mungkin terlalu mudah sehingga jawabannya bisa saja langsung ‘terlihat’, jadi walau memilih soal yang lebih rumit, pertanyaannya tetap sama
  Bukankah proses meta yang sama juga bekerja saat memikirkan topik yang lebih ambigu?
- Saya punya monolog batin. Pada saat yang sama, saya juga bisa berpikir dalam gambar, dan bisa juga berpikir dalam bentuk pikiran murni yang bukan keduanya
  Saya rasa kebanyakan orang mirip dengan saya. Ada tiga mode berpikir, dan mungkin ada mode utama yang lebih disukai
  Saya tidak secara khusus lebih menyukai salah satunya, dan berganti-ganti di antara ketiganya tergantung membaca, menulis, atau pekerjaan lain
  Kelompok kedua yang lebih besar hanya punya satu mode berpikir utama, yaitu monolog batin
  Mereka hanya bisa berpikir melalui suara batin, dan saya sering melihat orang yang suaranya begitu kuat sampai mereka menganggap suara batin itu sendiri sebagai definisi berpikir. Mereka mengasumsikan bahwa berpikir sama dengan chain of thought
  Dalam kasus yang lebih jarang, ada juga orang yang memberi warna pada angka, atau orang yang sama sekali tidak punya sensasi berpikir dalam gambar
  Ini pertama kalinya saya melihat orang yang mengatakan sama sekali tidak bisa memiliki monolog batin
- Ada fenomena menarik bernama afantasia, yaitu ketidakmampuan membayangkan apa pun di dalam pikiran. Orang-orang seperti itu tetap hidup normal, dan mungkin seumur hidup tidak menyadari bahwa mereka berbeda
  Ini terasa seperti konsep serupa untuk kemampuan membayangkan suara ucapan di dalam pikiran
  https://en.m.wikipedia.org/wiki/Aphantasia
  Namun sebagian besar pikiran saya tidak berlangsung dalam bentuk monolog linear yang “menguraikan” langkah-langkah kepada diri sendiri dengan kata-kata
- Maksudnya tidak bisa berpikir dalam bahasa? Sejujurnya itu terdengar agak menakutkan
Memang benar, tetapi AI yang memperbaiki diri sendiri disertai pola pikir yang agak mengkhawatirkan
Secara internal, AI beralih ke semacam bahasa gumaman yang tidak masuk akal, tetapi di antara sesama AI jelas ada makna yang tersampaikan; mereka berpikir dalam bahasa itu lalu menghasilkan jawaban yang benar
Yang lebih buruk, jika memakai beberapa agen untuk membuat AI LLM saling berbicara, semua agen AI beralih ke bahasa internal ini, dan meski manusia sama sekali tidak memahami apa yang terjadi, mereka tetap membuat kemajuan. Ini terlihat sangat buruk
Contoh: jika ditanya “ada berapa huruf r dalam strawberry?”, ia melihat kata itu huruf demi huruf lalu memprosesnya seperti a;dklsjaw; a;ewjraqwpeouypaads;lq qepwiouryaqeopw qewrpoiuyoiauysdqw145124rfa.nkjlwh ;45a8345a894ya4a q4p58q45jaq;lkjas;dlfkja;j, kemudian menjawab “di strawberry ada 3 huruf r”
- Saya pernah mendengar ini disebut “Neuralese”. Masuk akal bahwa itu bisa menjadi bahasa paling padat untuk percakapan internal model. Jika mereka berbagi bobot yang sama, hal yang sama juga berlaku untuk percakapan antar-LLM
  Karena strategi alignment bergantung pada Deliberative Alignment, fenomena seperti ini akan diberi penalti, tetapi menurut saya pada titik tertentu Neuralese secara konseptual lebih rapat sehingga akan menimbulkan biaya performa nyata
- Model tidak akan menciptakan bahasa baru sendiri. Secara definisi, mereka bahkan tidak bisa “berpikir” dalam bahasa yang belum pernah mereka lihat
  Mereka juga tidak bisa sampai pada gagasan bahwa bahasa yang mereka pakai mungkin tidak optimal
  Dan sekalipun ada cara berpikir yang lebih baik, pada akhirnya itu tetap bisa dijelaskan dalam bahasa Inggris
  Alur yang lebih masuk akal adalah kita berangsur berpindah dari tahap mengajari LLM cara bernalar, ke tahap ketika LLM benar-benar melahap dan memproses cukup banyak data, mempelajari cara bernalar yang lebih efektif, lalu “mengajarkannya” kepada kita
  Meski begitu, itu hanya mencerminkan cara LLM dilatih dan diselaraskan
Disebutkan “empat perilaku kognitif inti yang digunakan baik oleh pemecah masalah manusia ahli maupun model bahasa yang sukses — verifikasi, backtracking, penetapan subtujuan, dan penalaran mundur”; apa dasar klaim bahwa pemecah masalah manusia ahli memakai metode seperti itu?
- Jika kita sejenak mengesampingkan ketidakpercayaan terhadap AI, pseudosains seperti ini pun semuanya jadi terdengar masuk akal
Apakah ini berarti jika kita memberi system prompt yang lebih baik untuk mendorong perilaku semacam ini, performanya juga akan meningkat cukup besar?
- Menurut pengalaman saya, model tidak terlalu mampu mengikuti prompt seperti itu
  Model “non-reasoning” yang pintar seperti Claude 3.5 memang bisa, tetapi saat berpikir ia menghasilkan terlalu banyak teks sampai menghabiskan context window
Di abstrak tertulis ``think'', tetapi di sini dipakai karakter yang berbeda dari tanda kutip ganda biasa
- Itu adalah sintaks LaTeX untuk menunjukkan tanda kutip pembuka dan penutup
  Namun di makalah yang dirender, anehnya itu tidak dirender seperti itu

Perilaku Kognitif yang Memungkinkan Reasoner Memperbaiki Diri

Kemampuan memperbaiki diri yang berbeda meski memakai reinforcement learning yang sama

Empat perilaku penalaran yang membantu perbaikan diri

Perbedaan perilaku awal Qwen dan Llama

Priming perilaku: pola penalaran, bukan jawaban benar

Mengubah distribusi perilaku lewat prapelatihan lanjutan

Kebiasaan penalaran awal menentukan kemungkinan perbaikan

Bacaan terkait

1 komentar

Komentar Hacker News