Belajar Cara Bernalar dengan Meta Chain-of-Thought

(arxiv.org)

2 poin oleh GN⁺ 2025-01-12 | 1 komentar | Bagikan ke WhatsApp

Meta Chain-of-Thought (Meta-CoT) adalah kerangka kerja yang melampaui CoT yang hanya menuliskan langkah penyelesaian akhir, dengan mencoba memodelkan hingga proses berpikir laten sebelum sampai pada jawaban
Pada soal matematika tingkat sulit, solusi akhir bergaya buku teks menghilangkan eksplorasi, verifikasi, dan eksperimen dari proses berpikir yang sebenarnya, sehingga model sulit mempelajari proses menghasilkan solusi
GPT-4o dan Claude juga bisa gagal pada sebagian evaluasi ekspresi aljabar, tetapi CoT “step by step” meningkatkan perhitungan antara dan memperbesar kemungkinan jawaban benar, sekaligus memperlihatkan perbedaan dalam jumlah komputasi inferensi
Keluarga OpenAI o1 menghasilkan keluaran yang lebih panjang pada benchmark matematika sulit seperti HARP dan memperlebar selisih performa, menunjukkan perilaku yang berkaitan dengan eksplorasi saat inferensi
Jalur implementasi Meta-CoT diusulkan sebagai pipeline pelatihan yang menggabungkan process supervision, data sintetis, pencarian MCTS/A*, instruction tuning berbasis jejak pencarian yang dilinearisasi, dan pascapelatihan reinforcement learning

Masalah yang Disasar Meta-CoT

Fondasi model bahasa besar saat ini adalah prediksi token berikutnya; teks atau modalitas kontinu dipecah menjadi deretan token diskret, lalu model dilatih untuk memaksimalkan kemungkinan token berikutnya
Pendekatan ini didasari pandangan “compression is intelligence”
- Agar dapat memprediksi token berikutnya, model harus mendekati distribusi data dan melakukan penalaran implisit di dalam nilai aktivasinya
Pertanyaan intinya adalah hubungan antara kompleksitas stream data dan kemampuan model untuk mempelajari algoritma pembangkit data
Penalaran matematika digunakan sebagai area yang cocok untuk mengevaluasi pertanyaan ini
- Untuk soal seperti “1+2”, kebanyakan langsung menjawab “3”
- Soal evaluasi ekspresi aljabar yang lebih kompleks sebenarnya disederhanakan menjadi 1, tetapi LLM kuat seperti GPT-4o dan Claude pun bisa tidak pernah menjawab dengan benar
Instruksi “think step by step” dan CoT membuat model menghasilkan langkah-langkah antara, sehingga performanya meningkat besar
- Pada contoh ekspresi aljabar, ditunjukkan bahwa nilainya 1 melalui faktorisasi, pencoretan faktor, dan perhitungan penyebut bersama

Keterbatasan CoT yang Ada

Ekstensi CoT secara teoretis memungkinkan jumlah komputasi sebanyak apa pun dimasukkan ke dalam prediksi token jawaban benar
Literatur teoretis yang ada memandang CoT memberi LLM tingkat kompleksitas representasi baru, dan di bawah asumsi seperti memori tak terbatas bahkan dapat memungkinkan kelengkapan Turing
LLM nyata masih hanya dapat menyelesaikan masalah dengan kompleksitas terbatas secara stabil
Proses pembangkitan data sebenarnya untuk penalaran kompleks tidak cukup tercakup dalam data CoT umum
- Proses penyelesaian bergaya buku teks untuk soal sederhana relatif sesuai dengan proses menghasilkan solusi yang sebenarnya
- Langkah solusi akhir untuk soal kompleks menghilangkan proses eksplorasi nonlinier sebelum mencapai solusi tersebut

Definisi Meta Chain-of-Thought

Alih-alih langsung bergerak dari pertanyaan ke langkah penyelesaian akhir dan jawaban, Meta-CoT memodelkan pikiran laten z1 ... zK yang ada sebelumnya
CoT klasik dapat dilihat sebagai jawaban a yang dikondisikan pada langkah penyelesaian s1 ... sn
Meta-CoT memandang langkah penyelesaian dan jawaban (a, s1 ... sn) sebagai sesuatu yang dikondisikan pada proses berpikir laten z1 ... zK
Ini adalah struktur yang menggeneralisasi logika CoT yang ada satu tingkat lebih jauh, dengan membawa proses berpikir di luar solusi akhir ke dalam sasaran pembelajaran
Pada masalah kompleks, meski solusi akhirnya singkat, proses untuk menemukan solusi tersebut bisa panjang dan nonlinier

Contoh Soal “windmill” IMO 2011

Soal windmill yang terkenal dari International Mathematics Olympiad 2011 digunakan sebagai contoh penalaran kompleks
Solusi publik untuk soal ini dapat dinyatakan dalam beberapa kalimat dan tidak memerlukan pengetahuan prasyarat khusus
Kesulitan sebenarnya terletak pada struktur solusi yang sangat nonlinier
- Banyak peserta mencoba konstruksi convex hull atau alat Hamiltonian graph theory, tetapi tidak mengarah ke solusi
- Peserta yang berhasil menyelesaikan soal mengikuti pendekatan eksperimental yang banyak mencakup eksplorasi geometris dan penalaran induktif
Konstruksi awal dari solusi akhir baru terlihat berguna jika keseluruhan pendekatannya sudah diketahui
Karena itu, proses menghasilkan solusi yang sebenarnya tidak cocok dengan cara autoregresif yang berjalan dari kiri ke kanan

Hasil HARP dan Penggunaan Token Keluarga o1

Keluarga model OpenAI o1 dibahas sebagai model yang melakukan penalaran Meta-CoT secara autoregresif pada saat inferensi
Pada benchmark matematika HARP, keluarga o1 secara keseluruhan menunjukkan performa lebih tinggi daripada model penalaran standar yang ada
Semakin tinggi tingkat kesulitan soal, semakin besar selisih performa antara o1 dan model lain
- Namun, ada pengecualian menarik yang diamati pada model LLaMa 3.1
Dari sisi jumlah token yang dihasilkan, keluarga o1 juga menunjukkan perilaku yang berbeda dari model yang ada
- Pada soal Level 1, model menghasilkan jumlah token yang mirip dengan solusi yang ditulis manusia
- Pada tingkat kesulitan yang lebih tinggi, model menghasilkan jauh lebih banyak token per soal, dan pada saat yang sama selisih performanya terhadap model yang ada juga meningkat
Solusi publik untuk soal sulit tidak merepresentasikan proses pembangkitan yang sebenarnya, sehingga muncul asumsi bahwa Meta-CoT yang lebih panjang dari keluarga o1 dapat mendekati proses tersebut dengan lebih baik

Peran Eksplorasi dan Verifikasi

Pada masalah kompleks yang berorientasi tujuan, dapat ada kesenjangan tingkat kesulitan yang bermakna antara generasi dan verifikasi
Kesenjangan ini terkait dengan masalah terbuka fundamental dalam ilmu komputer teoretis, tetapi membuktikannya berada di luar lingkup penelitian
Jawaban atas soal-soal sulit dalam korpus teks dapat dipandang sebagai hasil dari proses eksplorasi yang panjang
Namun, proses eksplorasi itu sendiri umumnya tidak direpresentasikan dalam data
Jika data Meta-CoT tidak ada atau hanya tersedia secara terbatas, model sulit mempelajari secara langsung proses pembangkitan sebenarnya dari penalaran tingkat sulit

Eksperimen LLaMa 3.1 8B

Supervised fine-tuning skala besar dilakukan pada base model LLaMa 3.1 8B menggunakan dataset Numina MATH
Setiap checkpoint antara dievaluasi pada dataset evaluasi 500 soal Hendrycks MATH
Dalam evaluasi pass@k yang menggunakan oracle verifier, diamati bahwa performa meningkat besar saat k bertambah
Figure 2 menunjukkan bahwa dataset yang difilter memiliki scaling yang lebih baik daripada data asli dan belum mencapai plateau
Menaikkan k dari pass@2 hingga pass@64 secara signifikan meningkatkan peluang mendapatkan setidaknya satu solusi benar, bahkan pada model kecil

Jalur Pelatihan dan Pertanyaan Terbuka

Process supervision dan pembuatan data sintetis berbasis pencarian dibahas sebagai metode untuk membuat Meta-CoT
Pembuatan Meta-CoT sintetis mencakup algoritma pencarian seperti Monte Carlo Tree Search (MCTS) dan pencarian A*
Pipeline yang menargetkan satu sistem end-to-end menggabungkan instruction tuning menggunakan jejak pencarian yang dilinearisasi dan pascapelatihan reinforcement learning
Proyek “Big MATH” adalah upaya mengumpulkan lebih dari 1.000.000 soal matematika berkualitas tinggi yang dapat diverifikasi untuk mendukung riset ini
Pertanyaan riset terbuka mencakup scaling law untuk penalaran dan pencarian, peran verifier, serta kemungkinan menemukan algoritma penalaran baru melalui meta-RL

1 komentar

GN⁺ 2025-01-12

Komentar Hacker News

Kritik terhadap CoT cukup meyakinkan. Terutama, bagian yang menyoroti keterputusan antara imitasi algoritmik dan eksplorasi kognitif yang sesungguhnya adalah poin utamanya
Para penulis menunjukkan, lewat contoh matematika tingkat lanjut seperti “windmill problem” di Olimpiade Matematika Internasional, masalah yang sulit diselesaikan dengan pemikiran berurutan yang brutal. Ini menyingkap keterbatasan kerangka yang bergantung pada dataset statis dan proses generasi yang kaku. Alasan CoT gagal bukan karena tidak bisa menghasilkan solusi, melainkan karena tidak memiliki cara memunculkan solusi seperti kreativitas manusia
Kalimat “superintelligence bukanlah menemukan hal baru, melainkan menemukan cara baru untuk menemukan” terasa berkesan
- Kalau begitu nanti bisa muncul juga masalah yang membutuhkan “cara baru untuk menemukan cara baru untuk menemukan”, dan bisa terus berlanjut seperti itu
- Bisa dilatih dengan meta-reasoning. Jika proses menemukan cara orang menemukan sesuatu itu dipelajari, rasanya ini bukan masalah besar, tinggal membuat dataset lalu melatihnya
- Kutipan di bagian akhir bagus. Penasaran apakah ada yang ingat sumber aslinya
- Terkait windmill problem, ada https://www.3blue1brown.com/lessons/windmills
Ide besar dari paper ini adalah bahwa CoT terbatas pada sebagian masalah kompleks. Ada masalah-masalah yang tidak punya metode “buku teks” untuk menemukan solusinya, dan masalah seperti ini memerlukan metodologi yang khas
Bagian “pada dasarnya, untuk mulai menghasilkan solusi, kita harus sudah mengetahui pendekatan keseluruhannya. Proses generatif yang mendasari solusi bukanlah proses autoregresif yang berjalan dari kiri ke kanan” adalah poin kuncinya
Secara matematis, ini bisa diformalkan sebagai interpretasi yang memandang penalaran sebagai proses variabel laten. CoT klasik memandang probabilitas jawaban akhir sebagai marginalisasi atas rantai penalaran laten, sedangkan proses nyata menghasilkan solusi untuk masalah kompleks harus dipandang sebagai distribusi probabilitas gabungan dari solusi yang bersyarat pada proses generatif laten. Karena itu q → z1 → … → z disebut Meta-CoT
Ini tampak seperti titik awal yang cukup penting. Misalnya, kalau kita bertanya ke o1-pro bagaimana menjalankan dioda laser 1550nm pada 1GHz sambil menurunkan kehilangan geometris dari prinsip fisika dasar tanpa kolimator mahal, dengan material umum atau pendekatan manufaktur baru, ilusi bahwa o1-pro itu luar biasa jadi runtuh. Rekayasa yang “baru” masih belum terjangkau, dan karena tidak ada buku teks tentang cara melakukan rekayasa semacam itu, masalah seperti ini tidak bisa diselesaikan secara autoregresif dari kiri ke kanan
- Mengejutkan melihat seberapa jauh tolok ukurnya sudah bergeser
  Sekarang tampaknya agar model AI dianggap “luar biasa”, ia harus bisa diberi masalah yang bahkan manusia pun belum mampu selesaikan di bidang sulit mana pun, lalu mengeluarkan solusi yang bagus. AI seperti itu tentu memang luar biasa dan akan mengubah dunia, tetapi standar bahwa kalau belum sampai sana maka tidak lagi “luar biasa” cukup mengejutkan
- Bahkan pada manusia pun diragukan apakah masalah ini bisa diselesaikan dengan benar tanpa bertanya pada realitas fisik, yaitu tanpa eksperimen
  Sebagian realitas tidak dapat dihitung, jadi pada akhirnya kita hanya bisa mencapainya dengan membiarkan alam semesta mensimulasikannya secara langsung
- Ucapan “masalah yang tidak punya metode buku teks untuk menemukan solusi” berbeda dari pengalamanku berinteraksi dengan LLM
  Bahkan ketika pertanyaan diajukan dengan cara yang kebanyakan orang tidak akan pahami, dari jawabannya terlihat bahwa pertanyaannya sendiri ditafsirkan dengan benar. Apakah jawabannya benar itu soal lain, tetapi interpretasi yang bukan contoh buku teks sampai taraf tertentu memang muncul
- Katanya “tidak ada buku teks tentang cara melakukan rekayasa baru”, tapi bukankah ada buku tentang metode ilmiah
  Seperti kata komentar lain, berharap superintelligence di dalam kotak menemukan hal-hal yang memerlukan eksperimen dan observasi itu secara fisik hampir mustahil. Ini akan terbatas pada bidang seperti matematika murni, yang cukup ditulis di atas kertas dan dipikirkan lewat aksioma saja, padahal justru bidang seperti itu termasuk yang paling sulit untuk mengalami kemajuan. Umat manusia pun sampai di titik ini lewat ribuan tahun kontribusi kecil dari banyak cendekiawan besar
Apakah komunitas riset sudah sepakat bahwa “model bahasa tidak sekadar mencocokkan korelasi antar kata secara berurutan, melainkan mempelajari makna implisit dari teks”? Saya penasaran apakah ada paper yang membahas topik ini
- Komunitas riset sama sekali belum sepakat soal ini, dan ada beberapa kubu. Jika dilihat secara garis besar di bidang pemrosesan bahasa alami, ada dua sudut pandang
  Paper Bender dan Koller tahun 2020[1] berargumen bahwa makna tidak bisa dipelajari hanya dari bentuk, dan LLM belajar dari bentuk. Dalam eksperimen pemikiran “The Octopus Test” di paper itu, muncul seekor gurita yang bisa menyadap percakapan dua manusia, tetapi dijelaskan bahwa “dengan hanya memiliki bentuk dari data pelatihan, ia tidak mempelajari makna”
  Sebaliknya, tulisan Yoav Goldberg[2] membahas grounding dan apa yang dipelajari LLM dengan cara yang lebih informal. Secara umum, argumennya adalah bahwa instruction tuning dan post-training dapat membuat istilah seperti summarize menjadi tertambat pada makna secara lebih berarti
  [1] https://aclanthology.org/2020.acl-main.463/
  [2] https://gist.github.com/yoavg/59d174608e92e845c8994ac2e234c8...
- Saya sering merasa mungkin sebenarnya tidak ada perbedaan nyata antara “makna implisit teks” dan “korelasi antar kata secara berurutan”
  Fakta bahwa LLM bisa berkomunikasi secara efektif dengan manusia terasa lebih seperti penemuan tentang keteraturan semantik komunikasi manusia daripada penemuan tentang kecerdasan jaringan saraf
- Ini jelas bukan hal yang sudah disepakati. Dalam ilmu komputer, teori makna pada dasarnya bukan bagian dari disiplin itu, dan hampir tidak ada orang yang punya latar belakang riset terkait, jadi klaim berani seperti ini muncul di mana-mana
  Bagaimanapun kita menetapkan semantik bahasa alami, sulit menganggap model machine learning benar-benar menggunakan semantik itu
  Paling jauh yang bisa dikatakan adalah bahwa pembelajaran terawasi ala Transformer, yaitu di bawah tujuan “prediksi kata berikutnya”, membuat struktur korelasi antar kata menjadi distribusi aproksimasi yang sangat kasar terhadap semantik bahasa alami. Ini sendiri tidak pernah diperdebatkan; yang dipersoalkan adalah jenis aproksimasi ekstrem seperti apa yang sedang terjadi
  Misalnya, kondisi kebenaran dari “ada pena di tangan saya” memang adalah bahwa benar-benar ada pena di tangan saya. Untuk memaknai ucapan ini dalam konteks tersebut, sangat masuk akal bahwa akses langsung ke kondisi kebenaran seperti itu diperlukan. Mesin tidak bisa mengakses kondisi kebenaran dari ujaran semacam itu, jadi tidak bisa benar-benar memaknainya
  Jika mesin mengatakan “ada pena di tangan saya” dalam situasi yang tepat, maka “aproksimasi ekstrem terhadap semantik bahasa alami” berkaitan dengan situasi itu dan dengan apa yang dimaksud sebagai “tepat”
  Dari sudut pandang yang mengkritik LLM dan cara berpikir ala ilmu komputer, “situasi” tempat respons semacam itu tampak tepat—yakni rentang kondisi prompt—sangat sempit. Bagi pengguna, respons itu terlihat tepat adalah kondisi rekayasa bahwa alat bekerja dengan baik, bukan berarti model memahami semantik bahasa alami
  Jadi, LLM dapat dikatakan mengaproksimasi percakapan antar agen yang memahami semantik dalam situasi terbatas, dan memodelkan penggunaan bahasa yang tepat. Mungkin bisa disebut model “rata-rata ketepatan jawaban”, tetapi ia tidak benar-benar memaknai “ada pena di tangan saya”
Perlu berhati-hati dengan ungkapan yang mendasarkan diri pada prinsip “kompresi adalah kecerdasan” atau pada induksi Solomonoff
Di dua paper penuh “A Formal Theory of Inductive Inference” yang dikutip di atas, kata “intelligence” muncul 0 kali, “Compression” juga 0 kali, dan “reasoning” hanya muncul 1 kali dalam frasa “using similar reasoning”
Tentu saja, perhatian Solomonoff adalah penalaran induktif. Saya tidak tahu apakah ia pernah mengatakan “kompresi adalah kecerdasan”; ide dan slogan itu tampaknya berkembang jauh belakangan. Sumber aslinya pun tidak jelas
Memang benar bahwa induksi Solomonoff sangat terkait dengan masalah memprediksi simbol berikutnya dalam deret simbol, tetapi itu tidak harus berupa token bahasa. Ungkapan umum seperti LLM masih “tahap awal” itu keliru. Language modeling, menurut standar ilmu komputer, adalah teknologi yang nyaris kuno dan sudah lama memasuki tahap kematangan teknis
[1] https://raysolomonoff.com/publications/1964pt1.pdf
[2] https://raysolomonoff.com/publications/1964pt2.pdf
- Cukup masuk akal untuk mengatakan bahwa kecerdasan adalah salah satu bentuk kompresi. Model induktif itu kecil, tetapi secara potensial dapat menghasilkan informasi dalam jumlah sewenang-wenang
Ini pekerjaan yang matang. Saya sudah memikirkan dan mengerjakan ide terkait selama beberapa bulan, tetapi belum bisa memakai sumber daya komputasi pada skala yang serupa, dan arahnya mungkin juga agak berbeda
Riset ini jelas membantu membangun baseline untuk memanfaatkan arsitektur decoder Transformer dengan lebih baik
Di sini, Meta maksudnya perusahaan Meta, atau kata “meta” itu sendiri? Atau keduanya?
- Itu digunakan sebagai kata
  https://chatgpt.com/share/67813a3f-c7e8-8001-ab0c-7f024bc41a...
Saya penasaran apakah ada cara untuk mengetahui seberapa sering peneliti meneliti hal yang mereka pikirkan sendiri, dibandingkan kasus ketika pekerjaan yang dilakukan pengembang independen di internet mendapat perhatian, lalu diteliti dan terbit sebagai paper
Fakta bahwa paper ini mencontohkan persamaan aljabar substitusi sederhana dan penyelesaian langkah demi langkahnya justru memperkuat kesan bahwa LLM hanya bisa mereproduksi resep metode penyelesaian yang pernah dilihat sebelumnya
Sebenarnya ini tidak jauh berbeda dari cara kita belajar matematika di sekolah. Guru menunjukkan titik awal, lalu bergerak langkah demi langkah sampai akhir. Menyebutnya “Meta Chain-of-Thought” terasa seperti melebih-lebihkan proses pendidikan dasar
Mungkin berikutnya tindakan dasar mengambil alat makan akan diberi nama yang dipaksakan seperti “teori gerak fisik hierarkis”. Di sekolah, “Meta Chain-of-Thought” seperti ini dulu cuma disebut “tunjukkan langkah penyelesaiannya”. Apakah ini benar-benar sebuah “fenomena” yang perlu dijelaskan? Kita mungkin bisa belajar lebih banyak tentang induksi logis, yaitu bagaimana kita mencapai langkah-langkah penalaran, tetapi saat ini kita masih terlalu tenggelam di dalam kuah untuk bisa menggambarkan bentuk panci dengan tepat
- Saya tidak tahu apakah “hanya bisa mereproduksi resep yang pernah dilihat sebelumnya” itu bicara tentang LLM, atau tentang diri Anda sendiri

Belajar Cara Bernalar dengan Meta Chain-of-Thought

Masalah yang Disasar Meta-CoT

Keterbatasan CoT yang Ada

Definisi Meta Chain-of-Thought

Contoh Soal “windmill” IMO 2011

Hasil HARP dan Penggunaan Token Keluarga o1

Peran Eksplorasi dan Verifikasi

Eksperimen LLaMa 3.1 8B

Jalur Pelatihan dan Pertanyaan Terbuka

Bacaan terkait

1 komentar

Komentar Hacker News