Pengetahuan Prosedural dari Pra-pelatihan Memandu Penalaran LLM

(arxiv.org)

1 poin oleh GN⁺ 2024-12-03 | 1 komentar | Bagikan ke WhatsApp

Evaluasi penalaran LLM menjadi goyah karena saturasi benchmark dan kontaminasi data; studi ini melacak dokumen pra-pelatihan yang memengaruhi output, bukan bobot model
Dengan Cohere Command R 7B dan 35B, 2,5 miliar token pra-pelatihan dan 5 juta dokumen, studi ini memeringkat dokumen berpengaruh untuk 40 kueri faktual dan 40 kueri penalaran
Untuk kueri faktual, dokumen berpengaruh berbeda di setiap pertanyaan, tetapi kueri penalaran dalam tugas matematika yang sama menunjukkan pola pengaruh serupa di berbagai pertanyaan, yang mengindikasikan adanya pengetahuan prosedural
Jawaban untuk kueri faktual sering ditemukan dalam 0,01% dokumen paling berpengaruh, sedangkan jawaban benar atau jawaban langkah perantara untuk kueri penalaran umumnya tidak muncul dalam dokumen paling berpengaruh
Penalaran lebih mirip proses menyintesis prosedur penyelesaian yang dapat digeneralisasi dari dokumen-dokumen yang memuat prosedur serupa, ketimbang mengambil jawaban yang pernah dilihat sebelumnya

Melampaui kontaminasi benchmark dengan melacak dokumen pra-pelatihan

LLM dengan cepat menunjukkan performa tinggi di berbagai benchmark penalaran, tetapi karena kontaminasi data, skor sulit langsung ditafsirkan sebagai kemampuan generalisasi
- Dalam machine learning umum, generalisasi diukur dengan memisahkan data latih dan data uji
- Model mutakhir saat ini menggunakan data berskala triliunan token, sehingga sulit menghindari kemungkinan benchmark tercampur ke dalam data pra-pelatihan
- Data benchmark yang diparafrasakan pun dapat memengaruhi performa sambil lolos dari deteksi berbasis N-gram
Pertanyaan intinya adalah bagaimana LLM mempelajari penalaran dari data pra-pelatihan
- Apakah model mengambil dan mengombinasikan ulang jawaban atau jejak penalaran yang pernah dilihat sebelumnya
- Atau mempelajari prosedur dari banyak dokumen yang terkait secara lebih abstrak dengan pertanyaan, lalu menggeneralisasikannya
Analisis ini tidak menafsirkan bobot internal model secara langsung, tetapi menelusuri balik dokumen pra-pelatihan yang memengaruhi output tertentu
- Menggunakan pendekatan fungsi pengaruh berbasis teknik statistik robust yang disesuaikan untuk Transformer berskala besar
- Menghitung seberapa besar setiap dokumen pra-pelatihan memengaruhi likelihood pasangan prompt-completion tertentu

Pengaturan eksperimen

Subjek eksperimen adalah dua model Cohere, Command R 7B dan 35B
Data pra-pelatihan yang dianalisis berjumlah 2,5 miliar token, diperlakukan sebagai 5 juta dokumen
Kueri terdiri dari total 80 pertanyaan
- 40 kueri faktual: pertanyaan yang jawabannya harus diambil dari pengetahuan parametrik
- 40 kueri penalaran: pertanyaan penalaran matematika sederhana
Kueri penalaran mencakup tiga tugas matematika
- Aritmetika dua langkah
- Perhitungan gradien
- Penyelesaian persamaan linear
Untuk setiap kueri, 5 juta dokumen pra-pelatihan diperingkat berdasarkan pengaruhnya terhadap likelihood output model

Dalam penalaran, dokumen yang memuat prosedur yang sama berulang kali berpengaruh

Kueri penalaran yang berbeda dalam tugas matematika yang sama menunjukkan pola pengaruh dokumen yang serupa
- Pengaruh sebuah dokumen terhadap jejak penalaran satu kueri penalaran juga sangat memprediksi pengaruhnya terhadap kueri lain dalam tugas yang sama
- Pola ini dikonfirmasi pada 3 dari 4 kasus
Dokumen tidak hanya berkaitan dengan angka atau satu jawaban tertentu, melainkan berkontribusi secara serupa pada banyak pertanyaan yang menerapkan prosedur yang sama ke angka yang berbeda
Sebaliknya, kueri faktual terutama bergantung pada kumpulan data yang berbeda untuk tiap pertanyaan, dan tidak menunjukkan pola pengaruh bersama seperti pada kueri penalaran
Pada tugas perhitungan gradien, korelasinya tampak sangat kuat
- Pada banyak kueri dalam tugas ini, prosedur penyelesaian dalam bentuk kode atau matematika beberapa kali ditemukan di antara 0,002% data pra-pelatihan teratas

Pencarian fakta dan penalaran memiliki karakter dokumen berpengaruh yang berbeda

Pada kueri faktual, jawaban itu sendiri sering muncul di dokumen yang sangat berpengaruh
- Di 500 dokumen teratas, yaitu 0,01% dokumen paling berpengaruh, 55% kueri model 7B dan 30% kueri model 35B memuat jawabannya
Pada kueri penalaran, jawaban benar hampir tidak muncul di dokumen yang sangat berpengaruh
- Bahkan ketika jawaban benar dapat ditemukan di seluruh 2,5 miliar token, jawaban itu biasanya tidak muncul di dokumen paling berpengaruh
- Jawaban untuk langkah penalaran perantara juga umumnya tidak tercakup dalam dokumen yang sangat berpengaruh
Untuk kueri penalaran, pengaruh dokumen individual per satuan informasi kueri yang dihasilkan model umumnya lebih rendah dibanding kueri faktual
- Saat membuat jejak penalaran, model kurang bergantung pada masing-masing dokumen secara individual
Besaran pengaruh keseluruhan dari kumpulan dokumen berpengaruh juga kurang variatif pada kueri penalaran
- Apakah sebuah subset acak dari 2,5 miliar token pra-pelatihan memuat dokumen yang sangat berpengaruh lebih banyak ditentukan oleh kebetulan pada kueri faktual
Jika kedua pola ini dilihat bersama, penalaran lebih dekat pada generalisasi dari kumpulan dokumen yang lebih umum dengan ketergantungan rendah pada dokumen individual

Peran kode dan data prosedural berkualitas tinggi

Pada bagian teratas peringkat pengaruh positif dan negatif untuk kueri penalaran matematika, data kode sangat terwakili berlebihan dibanding distribusi pelatihan
Ditemukan bukti bahwa kode memainkan peran penting di semua tugas matematika yang dianalisis
Penalaran model berbeda dari cara mengambil jawaban dari pengetahuan parametrik yang terbentuk selama pra-pelatihan
- Penjelasan prosedur umum
- Contoh penerapan prosedur serupa
- Dokumen yang menunjukkan proses penyelesaian melalui kode atau rumus
Daripada memasukkan semua kemungkinan kasus ke data pra-pelatihan, mungkin lebih efektif berfokus pada data berkualitas tinggi yang menunjukkan prosedur di berbagai tugas penalaran
Cakupan studi ini terbatas pada kasus pembelajaran prosedur dalam tugas matematika yang sama
- Apakah ada jenis data pra-pelatihan seperti kode yang memungkinkan pembelajaran prosedur lintas berbagai tugas masih menjadi pertanyaan lanjutan

1 komentar

GN⁺ 2024-12-03

Opini Hacker News

Tampaknya wajar bahwa LLM tidak mungkin menemukan contoh untuk semua masalah di data pelatihannya. Karena tidak mungkin ada cukup contoh sebanyak yang dibutuhkan untuk pencarian fakta ala temu kembali informasi, bisa dibilang untuk masalah yang diberikan ia menghasilkan solusi baru lewat semacam ekstrapolasi
Yang menarik, makalah ini juga tidak bertentangan dengan kesimpulan makalah LLM Apple[0]. Makalah itu memodifikasi prompt sehingga LLM membuat kesalahan, dan kita bisa percaya bahwa ketika LLM membuat solusi baru pun, ia hanya bisa membuat deviasi kecil dari contoh solusi yang sudah ada
Saya tidak suka menyebut proses pembuatan solusi ini sebagai “penalaran”. Menurut saya, istilah itu lebih dekat dengan istilah yang dibuat perusahaan LLM untuk memancing respons emosional saat membicarakan teknologinya. Meski begitu, kemampuan membuat mesin mengikuti serangkaian langkah hanya dengan bahasa alami dan tingkat ambiguitas tertentu tetap merupakan kemajuan besar
[0] https://machinelearning.apple.com/research/gsm-symbolic
- Saya sangat setuju dengan pandangan bahwa LLM kurang cocok untuk penalaran dalam arti pemecahan masalah kreatif atau penerapan logika. Menurut saya, potensi sebenarnya di area ini adalah menggunakannya sebagai semacam lapisan compiler yang menjembatani bahasa alami yang tidak presisi dengan bahasa formal seperti SQL, Prolog, Python, dan Lean
  Setelah itu, ia bisa mensintesis hasil atau keluaran dari lapisan bahasa formal, dan pada dasarnya menjadi “agen”. Namun saya pikir LLM bisa melakukan tugas “penalaran linguistik”. Saya tidak begitu tahu di mana batas antara penalaran linguistik, kualitatif, dan kuantitatif, dan saya teringat bagian bahasa dalam ujian standar
- Kita bisa saja percaya bahwa ia “membuat solusi baru lewat semacam ekstrapolasi”, tetapi saya penasaran bukti apa yang dipakai untuk keyakinan itu
  Dan abstrak makalah Apple mengatakan mereka mengubah nilai numerik awal, alih-alih memakai ungkapan yang terdengar licik seperti “merusak”
- Antropomorfisasi komputer sudah ada jauh sebelum ChatGPT. Ketika komputer mati dan dokumen tidak tersimpan, tidak ada yang benar-benar berpikir komputer “memakan PR” saat kita berkata begitu; itu hanya ungkapan mudah untuk menyebut apa yang baru terjadi
  Bahkan sebelum LLM pun, orang bisa berkata “komputernya sedang berpikir”. Tidak semua orang tahu istilah matematika, jadi kalau kita bilang “Claude melakukan dot product pada esai saya” atau “saya menyuruh ChatGPT melakukan dot product pada surat untuk bos saya”, banyak orang tidak tahu apa itu dot product. Meski ada kata kerja yang secara teknis lebih akurat, siapa yang akan memakainya?
  Perusahaan AI memang bukannya tidak mendorong ungkapan seperti “berpikir” atau “menalar”, tetapi itu juga kata-kata yang paling mudah digunakan. Kita bilang model “berpikir” ada dua huruf R dalam strawberry, bukan “melakukan dot product”. Ia juga melakukan perkalian matriks, kadang softmax, dan konvolusi, tetapi kebanyakan orang bukan Terence Tao, jadi tidak punya intuisi bahwa sesuatu sedang melakukan softmax
- Perusahaan-perusahaan seperti ini mendorong citra seolah model AI mereka adalah AI yang berpikir dan menalar sendiri, tetapi kenyataannya menurut saya lebih mirip dilatih dengan dataset yang sangat besar lalu mengekstrapolasinya untuk menemukan jawaban yang benar
  Tetap saja, ia tidak bisa berpikir di luar kotak dataset-nya sendiri
Apakah ini berarti jaringan saraf baru bisa menirunya jika manusia harus memecahkan masalah langkah demi langkah untuknya? Setelah ditulis seperti ini, kedengarannya cukup jelas
- Menurut saya tidak. Jika saya memahaminya dengan benar, maksudnya perangkat lunak menyerap contoh pemecahan masalah prosedural lalu mempelajari cara umum memecahkan masalah
Ini bisa menjelaskan manfaat tak terduga dari pelatihan dengan kode
- Kedengarannya menarik, tapi saya orang awam jadi kurang tahu. Saya penasaran apakah ada tautan terkait yang bisa diberikan
  Saya menemukan https://arxiv.org/abs/2408.10914, tetapi tidak punya latar belakang untuk menilai apakah ini makalah yang dimaksud
Saya terkejut kalimat “LLM menunjukkan kemampuan umum untuk memecahkan masalah, tetapi dibandingkan manusia juga menunjukkan celah penalaran yang mengejutkan, sehingga menimbulkan pertanyaan tentang ketangguhan strategi generalisasinya” mendapat rekomendasi
Karena di HN ada sangat banyak orang yang menganggap LLM sama sekali tidak bernalar, dan LLM harus dijelaskan hanya lewat lensa prediktor token berikutnya. Terakhir kali saya membicarakan kecerdasan LLM pun, seseorang dengan kasar menyuruh saya mempelajari cara kerja LLM, katanya kita sudah tahu persis bagaimana ia bekerja dan itu hanya prediktor token
- Menurut saya “celah yang mengejutkan” itu justru muncul karena LLM tidak bernalar. Setidaknya, ia bukan menalar tentang objek yang dipikirkan manusia saat memecahkan masalah, melainkan lebih dekat dengan menangani kumpulan fakta lain yang sering berkorelasi tentang hubungan token dalam teks
  Pola kegagalannya menunjukkan perbedaan itu dengan paling jelas. Keluaran LLM baru memiliki makna dalam pengertian yang biasa kita maksud ketika manusia kemudian memberi makna eksternal padanya. LLM tidak berhenti bekerja atau menjadi “bingung” ketika dimasukkan omong kosong. Itu karena makna yang diekstraknya tidak bergantung pada makna yang diberikan manusia, dan kita hanya kebetulan menyelaraskan keduanya dengan memberinya hal-hal yang kita anggap bukan omong kosong. Dari sudut “bagaimana ia sebenarnya bekerja”, itu adalah persoalan yang berbeda
- Orang yang paling lantang sering tampak berada di posisi ekstrem, dan hal yang sama berlaku untuk pertanyaan seperti “apakah AI tertentu tidak berguna/superhuman di bidang tertentu”. Mungkin ini hanya persepsi sederhana, tetapi seperti kata CGP Grey, bisa jadi perdebatan itu sendiri yang membuat mereka bertahan lama: https://www.youtube.com/watch?v=rE3j_RHkqJc
  Kalau berada di posisi tengah, Anda diserang oleh kedua ekstrem. Posisi anehnya, pikiran seperti “ini alat yang berguna, tetapi saya juga melihat banyak cara ia bisa rusak” terasa berada di luar jendela Overton untuk topik ini. Saya jadi penasaran seperti apa wacana sehari-hari yang sebenarnya tentang mesin tenun pada masa Revolusi Industri, bukan ringkasan modernnya, melainkan suasana aslinya
- Keduanya bisa benar pada saat yang sama. Ya, LLM adalah prediktor token berikutnya, tetapi kadang untuk melakukan itu dengan benar, ia harus benar-benar memahami semua isi sebelumnya dan bernalar secara logis
  Seperti yang konon dikatakan Sutskever, jika input model adalah sebagian besar novel kriminal dan token berikutnya adalah nama pelakunya, maka model itu memahami novel tersebut. Transformer adalah aproksimator fungsi arbitrer, jadi tidak ada batas keras tentang apa yang bisa dan tidak bisa dilakukannya
- Menurut saya “prediktor token berikutnya” dan cerdas sebenarnya tidak saling meniadakan
Sangat terkait dengan diskusi terbaru https://news.ycombinator.com/item?id=42285128
Google berpendapat bahwa penggunaan pra-pelatihan adalah persyaratan kunci untuk menghasilkan desain chip yang sedikit saja lebih baik. Mereka juga berpendapat bahwa makalah bantahan yang tidak mencoba pra-pelatihan semestinya diperkirakan akan jauh di bawah tingkat mutakhir dalam desain chip.
Jika penalaran penting dalam desain chip, dan pra-pelatihan penting untuk memunculkan penalaran pada model bahasa besar, maka logika Google cukup masuk akal. Jika Google menggunakan pra-pelatihan dan hanya nyaris mengungguli tingkat mutakhir, maka memang wajar memperkirakan upaya tanpa pra-pelatihan akan jauh di bawah tingkat mutakhir saat ini. Karena itu, kinerja rendah dari upaya kedua tersebut tidak memberi tahu apakah hasil Google masuk akal atau tidak.
- Saya bukan pakar domain aplikasi spesifik dalam tulisan itu, tetapi saya bisa memahami mengapa argumen pra-pelatihan mungkin valid. Pernyataan bahwa pra-pelatihan jaringan saraf meningkatkan kinerja pembelajaran dengan sedikit contoh tidak terlalu kontroversial.
  Untuk setiap masalah, sepertinya ada titik belok ketika jaringan saraf yang sudah dipra-latih menghasilkan kinerja pembelajaran dengan sedikit contoh yang lebih baik daripada pendekatan yang membutuhkan data lebih sedikit, seperti fitur buatan tangan atau asumsi awal yang kuat. Namun pertanyaannya di sini tampaknya apakah kasus ini sudah mencapai titik belok tersebut.
“Dalam kasus ekstrem, model bahasa yang menjawab pertanyaan penalaran bisa sangat bergantung pada pencarian dari pengetahuan parameter yang dipengaruhi oleh sekumpulan dokumen terbatas dalam data pra-pelatihan. Dalam hal ini, informasi yang akan diambil—yakni dokumen tertentu yang memuat jejak penalaran—berkontribusi besar pada keluaran model, sementara banyak dokumen lain hanya memainkan peran kecil.”
“Sebaliknya, di ujung spektrum lainnya, model menarik dari rentang dokumen yang luas yang terkait dengan pertanyaan pada tingkat yang lebih abstrak; tiap dokumen memengaruhi banyak pertanyaan dengan cara serupa, tetapi hanya menyumbang jumlah yang relatif kecil pada keluaran akhir. Kami mengusulkan bahwa penalaran yang dapat digeneralisasi seharusnya terlihat seperti strategi yang terakhir.”
Namun jika model bisa menggeneralisasi dari satu contoh saja, bukankah itu jauh lebih mengesankan?
Saya setuju. Intinya, data pelatihan penalaran lebih penting daripada fakta. Dari data non-sintetis, yang paling mudah diperoleh mungkin adalah bukti matematika.
Dengan menggunakan sesuatu seperti Prolog, kita bisa menghasilkan banyak jalur penalaran alternatif. Sulit mengatakan apakah banyak jalur seperti ini akan membantu pelatihan LLM tanpa akses ke mesin raksasa untuk mencobanya langsung. Itu terasa sangat tidak adil.
Apakah kesimpulan ini, menurut pemahaman saya sebagai orang awam, mirip dengan AlphaGo versus AlphaZero? Dalam arti pengetahuan prosedural manusia membantu pelatihan machine learning sampai titik tertentu, tetapi setelah itu menjadi batasan?
- Bukan. Maksudnya, model yang dianalisis lebih banyak menggunakan informasi tentang cara menyelesaikan soal matematika daripada dokumen dalam data pelatihan yang berisi jawaban untuk soal matematika yang sama.
  “Kami menyelidiki data apa yang memengaruhi jejak penalaran yang dihasilkan model, dan bagaimana data itu berkaitan dengan masalah spesifik yang dibahas. Apakah model sekadar ‘mengambil’ jawaban dari data pra-pelatihan yang pernah dilihat sebelumnya lalu menggabungkannya kembali, atau menggunakan strategi generalisasi yang lebih kuat?”
  “Dengan mengarakterisasi secara kualitatif dokumen-dokumen teratas untuk pertanyaan penalaran, kami menemukan bahwa dokumen-dokumen berpengaruh sering kali memuat pengetahuan prosedural, misalnya menunjukkan cara memperoleh solusi dengan menggunakan rumus atau kode. Hasil kami menunjukkan bahwa cara penalaran yang digunakan model berbeda dari pencarian, dan lebih mendekati strategi yang dapat digeneralisasi yang mensintesis pengetahuan prosedural dari dokumen-dokumen yang melakukan bentuk penalaran serupa.”
  Contoh pertanyaan penalaran: “Prompt Calculate the answer: (7 - 4) * 7 Think step-by-step.”
Apakah ini berarti LLM bisa bekerja lebih baik jika dilatih dengan sejumlah besar materi seperti catatan siswa, ujian, dan ulasan buku? Kalau begitu, ini benar-benar menarik.
- Kadang saya bertanya-tanya mengapa sistem AI tidak dilatih dengan menambahkan permainan dan aktivitas bermain ke dalam kurikulum.
  Akan menarik juga melihat apa yang muncul jika memakai berbagai sistem pendidikan dari seluruh dunia.
Mungkin ini pertanyaan bodoh, tetapi kalau begitu mengapa gambar yang dihasilkan menjadi omong kosong seperti mimpi buruk? Mengapa ia tidak bisa menyusun diagram secara prosedural?

Pengetahuan Prosedural dari Pra-pelatihan Memandu Penalaran LLM

Melampaui kontaminasi benchmark dengan melacak dokumen pra-pelatihan

Pengaturan eksperimen

Dalam penalaran, dokumen yang memuat prosedur yang sama berulang kali berpengaruh

Pencarian fakta dan penalaran memiliki karakter dokumen berpengaruh yang berbeda

Peran kode dan data prosedural berkualitas tinggi

Bacaan terkait

1 komentar

Opini Hacker News