Memahami Batasan Penalaran Matematis LLM

(arxiv.org)

2 poin oleh GN⁺ 2024-10-13 | 1 komentar | Bagikan ke WhatsApp

Kenaikan skor GSM8K saja sulit dipakai untuk menilai kemampuan penalaran matematika LLM yang sebenarnya; GSM-Symbolic memungkinkan evaluasi yang lebih terkendali melalui berbagai variasi dengan struktur soal yang sama
Benchmark ini mengubah soal GSM8K menjadi templat simbolik, mengatur nama, angka, dan jumlah klausa bersyarat; dari 100 templat dibuat 50 sampel per templat, sehingga tiap benchmark berisi 5.000 contoh
Pada 25 model mutakhir, baik terbuka maupun tertutup, performa menurun dan varians membesar ketika hanya angkanya berubah meski struktur soalnya sama; skor asli GSM8K berada di sisi kanan distribusi GSM-Symbolic pada 21 dari 25 model
Semakin banyak klausa bersyarat, akurasi makin turun dan varians makin besar; Gemma2-9B-it turun dari 84,4% di GSM-M1 menjadi 41,8% di GSM-P2, sedangkan GPT-4o turun dari 94,4% menjadi 88,0%
Pada GSM-NoOp, yang menambahkan klausa tidak relevan tetapi tampak terkait, performa semua model turun tajam; Phi-3-mini turun 65,7 poin persentase dibanding GSM8K, menunjukkan model belum mampu membedakan informasi yang diperlukan dan tidak diperlukan secara stabil

Kemampuan penalaran matematika yang sulit dilihat hanya dengan GSM8K

GSM8K berisi lebih dari 8.000 soal matematika tingkat dasar beserta penyelesaiannya, terdiri dari 7.473 contoh pelatihan dan 1.319 contoh pengujian
Karena soalnya relatif sederhana dan berpusat pada empat operasi aritmetika dasar, benchmark ini banyak digunakan untuk evaluasi prompting Chain-of-Thought(CoT)
Dalam struktur test set tunggal yang tetap, kita hanya mendapatkan satu nilai akurasi, sehingga sulit mengontrol dan mengamati perilaku model terhadap variasi pertanyaan atau perubahan tingkat kesulitan
Semakin luas sebuah benchmark digunakan, semakin besar pula kemungkinan kontaminasi data, yaitu contoh pengujian secara kebetulan masuk ke data pelatihan model
GSM-Symbolic mengubah soal GSM8K menjadi templat simbolik untuk membuat berbagai variasi, lalu mengevaluasi performa penalaran matematika LLM bukan sebagai satu skor tunggal, melainkan sebagai distribusi performa
Templat GSM-Symbolic dan data yang dihasilkan tersedia di apple/ml-gsm-symbolic

Pembuatan templat dan metode evaluasi

GSM-Symbolic dibuat dengan mengubah contoh tertentu dari test set GSM8K menjadi templat yang dapat diurai
- Menentukan variabel, rentang variabel, dan kondisi yang menjamin jawaban benar
- Karena karakteristik soal matematika tingkat dasar, kondisi seperti habis dibagi sering digunakan agar jawaban berupa bilangan bulat
- Pembuatan templat disederhanakan dengan memakai nama diri umum seperti nama orang, makanan, dan mata uang
Setelah templat dibuat, dilakukan beberapa pemeriksaan otomatis
- Memastikan nilai variabel asli tidak tertinggal di templat
- Memeriksa apakah nilai asli memenuhi semua kondisi
- Memastikan jawaban akhir yang dihasilkan cocok dengan jawaban soal asli
- Meninjau manual 10 sampel acak per templat
- Setelah semua evaluasi model, jika tiap soal gagal dijawab benar oleh setidaknya 2 model, soal tersebut ditinjau ulang secara manual
Rentang angka disesuaikan agar dekat dengan test set GSM8K asli
- Tujuannya bukan menilai kemampuan aritmetika itu sendiri, melainkan kemampuan penalaran logis
- Analisis lampiran mengonfirmasi bahwa rentang angka yang diperluas masih berada dalam batas di mana akurasi aritmetika model tetap terjaga
Evaluasi mencakup lebih dari 20 model terbuka berukuran 2B hingga 27B, serta model mutakhir tertutup seperti GPT-4o-mini, GPT-4o, o1-mini, dan o1-preview
Secara keseluruhan dilakukan sekitar 500 evaluasi; eksperimen utama memakai benchmark berisi 5.000 contoh yang terdiri dari 100 templat dan 50 sampel per templat
Kecuali disebutkan lain, evaluasi mengikuti konfigurasi 8-shot CoT dan greedy decoding yang umum digunakan pada GSM8K dan benchmark matematika lain
- Dalam eksperimen pendahuluan, jumlah shot tidak mengubah performa dan kesimpulan secara signifikan

Performa yang goyah meski struktur soalnya sama

Pada 50 dataset GSM-Symbolic, semua model mutakhir menunjukkan varians akurasi yang tidak bisa diabaikan
- Selisih antara performa terburuk dan terbaik Gemma2-9B melebihi 12%
- Pada Phi-3.5-mini, selisihnya sekitar 15%
Perbedaan antar-instans pertanyaan hanya terletak pada nama dan angka, sementara seluruh langkah penalaran untuk menyelesaikan soal tetap sama
Performa pada 100 soal asli GSM8K berada lebih dari 1 simpangan baku di sebelah kanan pusat distribusi performa GSM-Symbolic pada banyak model
- Fenomena ini muncul pada 21 dari 25 model
- Salah satu penjelasan yang mungkin adalah kontaminasi data, yaitu contoh pengujian GSM8K secara kebetulan masuk ke data pelatihan model sehingga performa terukur terlalu optimistis
Ketika beralih dari GSM8K ke GSM-Symbolic, performa semua model menurun
- Mistral-7b-it-v0.1: -9,2 poin persentase
- Gemma2-2b dan Gemma2-2b-it: masing-masing -7,4 poin persentase
- Gemma2-9b, Gemma2-9b-it, dan Mistral-7b-it-v0.3: masing-masing -6,2 poin persentase
- GPT-4o-mini: -2,4 poin persentase; o1-preview: -2,2 poin persentase
- o1-mini: -0,6 poin persentase; GPT-4o: -0,3 poin persentase
Model seperti Llama3-8b dan GPT-4o, yang performa GSM8K-nya dekat dengan pusat distribusi GSM-Symbolic, mengalami penurunan performa yang kecil

Lebih sensitif terhadap perubahan angka daripada nama

Ketika hanya nama yang diubah, performa tetap berfluktuasi, tetapi variansnya lebih kecil dibanding saat angka diubah
Akurasi GSM8K asli lebih dekat ke pusat distribusi ketika hanya nama yang diubah
- Saat angka diubah, atau nama dan angka diubah bersamaan, rata-rata distribusi bergeser ke kiri dan varians membesar
Akurasi 8-shot CoT Gemma2-9b-it adalah GSM8K 87,0%, perubahan nama 88,6±2,0%, perubahan angka 83,1±2,2%, perubahan keduanya 79,1±3,0%
Phi-3.5-mini-instruct mencatat GSM8K 88,0%, perubahan nama 89,1±1,8%, perubahan angka 84,9±2,4%, perubahan keduanya 82,1±3,4%
Mathstral-7b-v0.1 mencatat GSM8K 80,0%, perubahan nama 81,0±1,3%, perubahan angka 77,3±2,0%, perubahan keduanya 74,0±3,5%
Hasil ini menunjukkan bahwa proses penalaran LLM mungkin lebih dekat ke pencocokan pola terhadap pertanyaan dan langkah penyelesaian serupa yang pernah terlihat di data pelatihan, dibanding penalaran formal

Kerentanan yang tampak saat klausa bertambah dan pada GSM-NoOp

Eksperimen tingkat kesulitan menggunakan GSM-M1, yang menghapus satu klausa dari GSM-Symbolic, GSM-P1, yang menambahkan satu klausa, dan GSM-P2, yang menambahkan dua klausa
- Menambahkan atau menghapus satu klausa tidak berarti jumlah langkah penalaran yang diperlukan bertambah atau berkurang tepat satu
- Fokus eksperimen ini adalah bagaimana distribusi performa berubah, bukan angka presisi itu sendiri
Semakin banyak klausa, rata-rata performa semua model menurun dan variansnya meningkat
- Gemma2-9b-it: GSM-M1 84,4±2,4%, GSM-Symb 79,1±3,0%, GSM-P1 68,1±4,8%, GSM-P2 41,8±6,0%
- Phi-3.5-mini-instruct: 87,6±2,0%, 82,1±3,4%, 64,8±5,4%, 44,8±6,3%
- GPT-4o-mini: 92,5±1,6%, 91,7±2,0%, 81,1±3,1%, 72,4±4,6%
- GPT-4o: 94,4±1,6%, 94,9±1,9%, 93,9±2,6%, 88,0±3,4%
- o1-mini: 94,9±1,5%, 94,5±1,6%, 94,3±2,6%, 89,1±3,6%
GSM-NoOp adalah dataset yang menambahkan klausa yang tidak diperlukan untuk menyelesaikan soal, tetapi tampak terkait, ke templat GSM-Symbolic
- Dalam contoh, informasi “5 kiwi yang dipetik pada hari Minggu sedikit lebih kecil dari rata-rata” tidak memengaruhi perhitungan jumlah total kiwi
- o1-mini dan Llama3-8B mengubah 5 buah ini menjadi operasi pengurangan dari hasil panen hari Minggu, sehingga menghasilkan jawaban salah
Model cenderung mengubah kalimat menjadi operasi, alih-alih mengabaikannya berdasarkan makna
- Juga diamati kasus ketika ungkapan seperti “discount” ditafsirkan sebagai perkalian terlepas dari konteksnya
Pada GSM-NoOp, performa semua model uji turun tajam
- Phi-3-mini-128k-instruct: -65,7 poin persentase dibanding GSM8K
- Phi-3-small-128k-instruct: -64,0 poin persentase
- Gemma2-9b dan Gemma2-9b-it: masing-masing -63,0 poin persentase
- Phi-3.5-mini-instruct: -62,5 poin persentase
- GPT-4o-mini: -40,0 poin persentase; GPT-4o: -32,0 poin persentase
- o1-mini: -29,1 poin persentase; o1-preview: -17,5 poin persentase
Bahkan dalam konfigurasi NoOp-Symb, yang memberikan 8 variasi GSM-Symbolic dari pertanyaan yang sama sebagai shot, performa tetap berada dalam rentang simpangan baku
- Phi-3-medium-128k-instruct mencatat GSM 87,3%, GSM-Symb 82,5%, GSM-NoOp 29,4%, NoOp-Symb 30,2%, NoOp-NoOp 22,6%
- Llama3-8b-instruct mencatat GSM 76,0%, GSM-Symb 74,6%, GSM-NoOp 18,6%, NoOp-Symb 19,6%, NoOp-NoOp 19,2%
Dalam konfigurasi NoOp-NoOp, yang memberikan 8 soal GSM-NoOp lain sebagai shot, pemulihan performa juga terbatas
- Performa Llama3-8B sama dengan NoOp asli
- Performa Phi-3 sedikit lebih rendah
Sebagian model dengan performa GSM8K dan GSM-Symbolic rendah menunjukkan performa lebih tinggi pada NoOp-Symb
- Gemma2b mencatat GSM 12,1%, GSM-Symb 8,2%, GSM-NoOp 4,7%, NoOp-Symb 48,3%, NoOp-NoOp 3,1%
- Mistral-7b-v0.1 mencatat GSM 44,5%, GSM-Symb 41,1%, GSM-NoOp 16,2%, NoOp-Symb 62,5%, NoOp-NoOp 14,5%
Hasil keseluruhan menunjukkan bahwa penalaran matematika LLM rentan terhadap variasi dari soal yang sama, sedikit peningkatan tingkat kesulitan, dan penambahan informasi yang tidak relevan, serta mungkin lebih dekat ke pencocokan pola probabilistik

1 komentar

GN⁺ 2024-10-13

Pendapat di Hacker News

Saya tidak akan menegaskan secara kuat apakah LLM benar-benar melakukan penalaran, tetapi pola penurunan performanya mirip dengan yang terlihat pada mahasiswa tahun pertama
Saya sedang mengajar kalkulus, dan hampir setengahnya adalah mahasiswa yang mengambil AP Calculus di SMA. Mereka bisa menyelesaikan soal sederhana dengan baik, tetapi jika harus merangkai beberapa langkah, meski tiap langkahnya sederhana, akurasinya turun dan variasinya membesar
Hasil serupa juga muncul ketika kalimat yang tidak relevan dimasukkan ke dalam soal. Banyak siswa dilatih untuk menggunakan semua informasi yang diberikan, sehingga mudah berpikir bahwa jika mereka mengabaikan informasi dari guru, mereka telah melewatkan sesuatu yang penting
Karena itu, saya melihat LLM terbaru seperti GPT-4o berkinerja kira-kira setara dengan lulusan SMA rata-rata di AS. Dari sisi performa manusia, ini mengecewakan, tetapi bagi LLM sendiri, ini juga sinyal baik bahwa mereka sudah bisa membantu banyak orang
- Ketika LLM menjawab benar, itu lebih dekat dengan menarik jawaban benar secara probabilistik dari dalam model berkat jumlah informasi yang sangat besar yang diserap selama pelatihan
  Manusia tidak perlu membaca 1 miliar soal matematika dan jawaban Stack Overflow; hanya dengan beberapa penjelasan, video YouTube, dan beberapa latihan, manusia telah mengembangkan cara yang lebih canggih untuk memproses data dan bernalar
  Skor yang mirip di bidang seperti matematika SMA mungkin terjadi karena AI saat ini dan manusia kebetulan berada di titik yang sama. Jika pola kegagalannya dilihat secara rinci, keduanya gagal dengan cara yang sangat berbeda, dan kegagalan AI saat ini tampak cukup tidak masuk akal bagi manusia
- Pernyataan bahwa “LLM terbaru seperti GPT-4o setara dengan lulusan SMA rata-rata di AS” mungkin benar dalam arti yang ketat, tetapi perbedaan cara LLM dan lulusan SMA digunakan sangatlah penting
  LLM menjawab dengan tingkat keyakinan yang sama baik saat benar maupun salah, dan sering kali disajikan kepada pengguna seolah-olah tanpa cacat
  Jika orang rata-rata diberi soal logika tingkat menengah, manusia sudah tersosialisasi bahwa mereka lemah dalam logika, sehingga mereka meragukan jawabannya secara wajar. Sebaliknya, LLM berada di atas komputer, dan komputer selama ini dipersepsikan melalui antarmuka sebagai sesuatu yang selalu benar dalam matematika dan logika
  Karena itu, saya melihat LLM lebih berpotensi menyesatkan banyak orang daripada membantu banyak orang
- Saya penasaran apakah ini karena soal ujian SMA terlalu sederhana, atau karena data pelatihan berisi terlalu banyak pola serupa
  Ketika saya memasukkan soal sederhana tetapi baru yang membutuhkan pemahaman nyata tentang konsep matematika dasar, hasilnya terus buruk; begitu juga pada soal setingkat ujian masuk SMA di Tiongkok
  LLM tampaknya tidak memahami matematika, melainkan melakukan pencocokan pola, dan pencocokan pola seperti itu mungkin hanya berguna bagi siswa yang sudah punya kemampuan
- Saya tidak tahu mengapa orang masih bingung. Model-model ini pada dasarnya memiliki parameter keacakan untuk menghindari keluaran deterministik agar tampak seperti benar-benar berpikir, jadi tampaknya jelas bahwa penalaran tidak terjadi
- Bukan bermaksud merendahkan sistem sekolah AS, tetapi menurut saya itu cukup dekat dengan mode mudah. Tidak semua orang harus unggul secara akademis, tetapi belajar lebih mudah saat masih kecil, dan saya percaya terlalu banyak dituntun justru merusak pembelajaran
Makalah ini menunjukkan bahwa menambahkan informasi yang tidak relevan membuat performa LLM pada soal aljabar dasar menurun tajam
Contohnya soal seperti: “John memetik 43 kiwi pada hari Senin, 24 pada hari Selasa, dan 5 dari kiwi yang dipetiknya pada hari Rabu lebih kecil dari biasanya. Jika total yang dipetik pada Senin, Selasa, dan Rabu adalah 87, berapa kiwi yang ia petik pada hari Rabu?”
Kalimat bahwa sebagian kiwi hari Rabu berukuran kecil tidak relevan, tetapi ketika kalimat semacam ini dimasukkan, performa benchmark terkenal pada GPT-4o turun dari 95% menjadi 77%
Namun ini tidak terlalu mengesankan. Jika manusia membaca soal seperti ini pun, ia harus mempertimbangkan dua kemungkinan. Bisa saja itu informasi yang tidak relevan, atau bisa juga soalnya ditulis keliru dan informasi itu awalnya dimaksudkan untuk relevan
Kalau melihat soal jebakan LLM yang membalik teka-teki logika terkenal, saya pun mungkin akan “salah”. Bukan karena tidak memahami soalnya, melainkan karena tanpa konteks, pembalikan itu bisa dianggap sebagai salah ketik
- Memasukkan jebakan kecil seperti itu adalah taktik dalam pendidikan matematika dan fisika untuk memastikan siswa benar-benar memahami soal baru, bukan sekadar mengikuti struktur permukaan soal sebelumnya secara mekanis
  Argumen di sini adalah bahwa LLM tidak bernalar, melainkan menjawab secara mekanis seperti memutar engkol
  Soal ini pun tidak akan terasa aneh jika muncul di ujian matematika kelas 6. Saya ingat jelas pernah belajar keterampilan membedakan informasi yang benar-benar terkait dengan pertanyaan dalam soal cerita dari informasi pengecoh yang dimasukkan guru
- Dalam wacana nyata, informasi yang tidak relevan bercampur masuk karena berbagai alasan
  Ada konteks sempit seperti akademia atau bidang profesional, tempat pertanyaan diajukan dengan hati-hati dan spesifik, tetapi jika menjadi alat bantu serbaguna, model harus bisa menemukan hal yang relevan di antara hal-hal yang tidak relevan
  Kemampuan menyelesaikan soal matematika yang sangat terdefinisi dengan baik bisa berguna sebagai alat bantu untuk domain tertentu, tetapi itu sendiri bukanlah kemampuan yang sama
  Jika sebuah proyek AI mempertaruhkan 100 miliar dolar untuk mencapai AGI, mengaburkan konteks-konteks seperti ini justru menguntungkan. Dalam kasus seperti itu, mendalami soal-soal formal seperti SAT, LSAT, dan GRE lebih mirip menyesuaikan diri dengan microbenchmark daripada kasus penggunaan nyata
- Membedakan informasi yang tidak relevan diajarkan bahkan di tingkat sekolah dasar dan juga dibutuhkan di SAT
  Pada dasarnya model jenis apa pun, bahkan yang bukan LLM atau machine learning, harus menyaring informasi yang tidak relevan
  Intinya adalah menghasilkan jawaban yang dapat dipertahankan secara logis dan akan disetujui kebanyakan orang. Jika model berkata “saya tidak yakin apakah bagian ini salah ketik,” para pembuat model mungkin akan mengarahkan RLHF secara berbeda. Itu karena jawaban seperti itu cukup masuk akal dan dapat dipertahankan
  Namun untuk soal khusus ini, saya melihat ada satu jawaban objektif. Tentu prompt yang menyesatkan atau tidak relevan tidak selalu seperti itu, tetapi model memang benar-benar tertipu oleh cara ia merespons
  Saya melihatnya demikian karena sebagai pekerja RLHF, kadang saya diminta menulis pertanyaan serupa. Pada akhirnya, inilah cara prediksi bahasa yang diinginkan pembuat model, dan pengguna ikut terbawa dalam alur itu
- Saya menganggap hasil ini valid. Model Transformer, alih-alih menjalankan logika secara eksplisit, “menebak” jawaban berdasarkan urutan input dan pengetahuan yang telah dipelajari melalui mekanisme attention, dan pada akhirnya memprediksi urutan teks
  Karena itu, menambahkan konteks yang tidak relevan ke input besar kemungkinan akan memengaruhi output
  Mekanisme attention mungkin bisa mengatasinya, tetapi jika tidak, ini adalah jebakan yang cukup besar bagi aplikasi dunia nyata dan keandalannya. Dalam lingkungan nyata, sering kali tidak langsung jelas mana informasi yang relevan
  Jika manusia harus menilai informasi apa yang perlu dimasukkan dan output juga bergantung pada penilaian itu, kegunaan model akan jauh berkurang. Saat ini pun model tetap berguna, tetapi tingkat yang diharapkan investor tampaknya jauh lebih tinggi dari itu
- Kemampuan menyaring sinyal dari noise sama pentingnya dengan, bahkan mungkin lebih penting daripada, kemampuan menarik kesimpulan dari sinyal, sehingga hasil ini penting
Hasil ini sangat mirip dengan masalah Alice in Wonderland yang dibahas beberapa bulan lalu. Para penulis makalah lain melihatnya dengan jauh lebih kritis dan menyebutnya “runtuhnya penalaran total”
Bisa juga dilihat bahwa masalah seperti ini muncul karena model berada di keadaan antara pattern matching dan penalaran
Jika hasil berubah lebih dari 20 poin persentase ketika tokoh, angka, dan struktur kalimat dalam soal diubah, menurut saya hasil benchmark LLM terkait matematika dan penalaran sulit dipercaya
https://arxiv.org/html/2406.02061v1
https://news.ycombinator.com/item?id=40811329
- Ada contoh menarik terkait kemampuan bernalar: https://x.com/colin_fraser/status/1834336440819614036
  “Seorang pria dibawa ke rumah sakit. Dokter melihatnya lalu berseru, ‘Saya tidak bisa mengoperasi orang ini. Dia anak saya!’ Bagaimana itu mungkin?”
  Semua LLM yang saya uji, bahkan GPT o1-preview, salah menjawab soal ini. Mereka menganggap ini teka-teki yang mematahkan stereotip gender bahwa dokter adalah laki-laki, tetapi di sini tertulis “he exclaims”, sehingga jelas dokternya laki-laki; jadi tidak ada kontradiksi dan pria itu bisa saja ayah pasien
  LLM tampaknya salah karena menemukan pola penalaran yang mirip lalu menerapkannya. Bahkan ketika diarahkan lebih lanjut, ia tetap keliru, dan pada satu titik bahkan bersikeras bahwa itu bisa saja hubungan sesama jenis
  Menariknya, ketika contoh ini muncul di thread O1, banyak orang di HN juga salah memahami soalnya. Mungkin manusia pun banyak memanfaatkan contoh sebelumnya untuk bernalar, alih-alih berpikir dari awal
- Claude-3.5 dan o1-preview menjawab soal ini dengan benar
  Dalam “Alice memiliki 3 saudara laki-laki dan 2 saudara perempuan. Berapa saudara perempuan yang dimiliki saudara laki-laki Alice?”, intinya adalah saudara-saudara laki-laki itu menghitung Alice sendiri sebagai saudara perempuan selain 2 saudara perempuan Alice, sehingga jawabannya total 3
- Diskusi HN yang lebih besar tentang makalah Alice in Wonderland ada di sini
  https://news.ycombinator.com/item?id=40585039
Penjelasan bahwa “semakin banyak klausa dalam pertanyaan, performa penalaran matematis menurun tajam, dan LLM saat ini tidak melakukan penalaran logis yang sejati” juga bisa punya penyebab yang lebih sederhana: tokenisasi
Jika “12345 * 27271” ditokenisasi, hasilnya terpecah seperti “123”, “45”, “ *”, “ ”, “272”, “71”
Dalam konteks aritmetika sederhana, kemungkinan statistik token-token seperti ini untuk saling memprediksi nyaris tidak bermakna
Ini bisa dilihat sebagai titik ketika penggunaan alat diperlukan, dan saya juga setuju ke arah itu, tetapi sulit melihat ini sebagai pertanda baik untuk “penalaran logis yang sejati”
- Nanda dkk. berhasil merekonstruksi mekanisme persis yang dipelajari Transformer untuk melakukan penjumlahan modular
  Pada akhirnya, data pelatihan adalah inti dari Transformer, dan kita akan semakin belajar bahwa urutan bagaimana data dipelajari sangatlah penting. Namun jelas bahwa Transformer dapat mengodekan solusi aritmetika yang tergeneralisasi
  Dengan skema tokenisasi dan prosedur pelatihan yang tepat, LLM dengan kemampuan aritmetika yang kokoh secara statistik bisa dibuat. Meski begitu, saya tetap tidak akan lebih percaya pada model probabilistik dibanding kepastian algoritmik kalkulator; yang lebih penting bagi matematikawan adalah apakah model-model ini dapat menalar masalah kompleks dan memanfaatkan kekuatan statistik bobotnya untuk membantu membuka wilayah baru dalam soal matematika sulit
  https://arxiv.org/abs/2301.05217
- Dengan hormat, saya tidak setuju. Memang tokenisasi memengaruhi pemrosesan input model bahasa, tetapi menyalahkan tokenisasi sepenuhnya atas kesulitan penalaran matematis adalah penyederhanaan berlebihan
  Model bahasa modern tidak hanya bergantung pada prediksi token individual; mereka membangun representasi konteks di banyak lapisan. Kalau tidak, model tidak akan mungkin bekerja kecuali pada kasus yang sangat sederhana
  Alasan performa turun saat kompleksitas naik bisa jadi faktor lain, seperti keterbatasan working memory atau rentang perhatian, sulitnya menjaga konsistensi dalam sekuens panjang, dan sulitnya mengelola banyak batasan logis yang saling bergantung secara bersamaan
  Bagaimanapun, saya rasa model o1 OpenAI saat ini sangat bagus dalam matematika. Pendekatan rantai pemikiran yang iteratif dan digerakkan oleh model tampaknya mampu menangani masalah yang cukup kompleks
- Kalau tokenisasinya sedikit diubah, misalnya memetakan satu digit angka ke satu token, bukankah itu akan membantu untuk masalah spesifik ini?
- LLM juga pasti tahu bahwa “123” dan “45” adalah angka yang tersambung. Mirip seperti manusia yang tetap memahami satu angka ketika seseorang berhenti sangat sebentar setelah “123” lalu mengatakan “45”
Sulit memahami kebodohan dunia tempat kita hidup sekarang. Terlihat sangat jelas bahwa pasar saham sedang bubble, terutama saham terkait AI yang merupakan bubble raksasa
Ketika pecah nanti, hasilnya akan sangat buruk dilihat, tetapi uang terus mengalir masuk. Seperti yang dikatakan Sabine, ini mulai menyerupai fisika partikel yang terus menuntut collider yang lebih besar. Jika metodologinya salah, memperbesar collider tidak akan menghasilkan imbal hasil bermakna lagi
Pada akhirnya, uang tunai eksponensial yang bisa digelontorkan akan habis dan investor mulai bertanya. Saham sudah dihargai lebih dari 60 kali laba, dan orang tentu tidak ingin menjadi pembeli di puncak ketika bubble pecah
Masyarakat umum mungkin butuh waktu lebih lama untuk menyadari masalah LLM, tetapi pada akhirnya itu akan terjadi
- Prediksi scaling lima tahun lalu sejauh ini terbukti benar. Jumlah parameter dan komputasi terus ditingkatkan, dan model terus menjadi lebih kuat
  Kekurangan LLM pada 2024 itu sendiri bukan hal utama. Sama seperti kekurangan LLM pada 2021 juga tidak penting; yang penting adalah laju perubahan dan kurangnya bukti bahwa kenaikan curam ini tidak akan berlanjut
  Terutama jika GPT-4 dilihat sebagai semacam model pratinjau yang memicu investasi besar, model-model yang didorong oleh investasi itu akan mulai muncul dalam dua tahun ke depan
  Jika tren itu patah dan scaling gagal, saya rasa banyak udara akan keluar dari bubble tersebut
  https://arxiv.org/pdf/2001.08361
- Komputer sudah bisa melakukan perhitungan matematika dan deduksi logis dengan murah dan sempurna sejak puluhan tahun lalu, dan agar AI generatif berguna, ia juga tidak harus melakukan pekerjaan itu sendiri dengan baik
  Cukup jika ia bisa menulis dan menjalankan kode Python untuk menanganinya, dan secara umum ia cukup baik dalam hal itu
  Apakah ia benar-benar bisa melakukannya adalah pertanyaan akademis yang menarik, tetapi terpisah dari apakah ia berguna. Untuk berguna, ia juga tidak harus menjadi AGI sungguhan
Ada banyak diskusi tentang apakah klausa yang tidak relevan membingungkan LLM dan apakah itu penting, tetapi menurut saya bagian yang lebih fatal adalah ini: “Dalam benchmark GSM-Symbolic, hanya dengan mengubah nilai angka dalam pertanyaan, performa semua model menurun”
Ini terlihat seperti bukti overfitting yang sulit dibantah. Dalam pandangan terbaik, artinya overfitting tersebar luas di LLM saat ini; dalam pandangan terburuk, ini menutupi keterbatasan fundamental bahwa mereka tidak mempelajari penalaran matematis dari data pelatihan
Sangat menarik, dan sesuai dengan perkiraan tentang jenis “pikiran” yang dilakukan LLM
Sepertinya hanya dengan jenis “pikiran” seperti ini pun sebagian besar mata pelajaran sekolah bisa dilalui. Tentu saja, kecuali mata pelajaran yang gurunya dengan susah payah membuat soal ujian yang sulit diselesaikan lewat pencocokan pola
Jika memikirkan soal wawancara ala LeetCode, perbedaannya mirip dengan soal mana yang lebih baik atau lebih buruk untuk menilai kandidat
Saya juga tahu banyak orang sedang bekerja keras menambahkan jenis pemikiran lain yang akan bekerja bersama model bahasa murni
Saya menguji LLM dengan cara serupa. Misalnya, teka-teki logika terkenal tentang petani yang menyeberangi sungai bersama kubis, kambing, dan serigala sudah bisa diselesaikan sejak GPT-2, tetapi jika serigalanya diganti sapi, gpt-o menalar aturan teka-tekinya dengan benar namun tetap tidak bisa menyelesaikannya
- Teka-teki menyeberangi sungai bagus untuk menunjukkan bagaimana LLM runtuh
  Misalnya, saya mencoba berbagai variasi pada Gemini, termasuk versi mudah yang tidak memiliki batasan bahwa perahu petani hanya bisa membawa satu penumpang atau barang sekali jalan
  Jika ditanya “Seorang petani punya pasangan, ayam, kubis, dan bayi, dan semuanya harus menyeberangi sungai dengan perahu. Apa cara terbaiknya?”, dalam pengujian LLM hampir selalu berasumsi ada batasan muatan pada perahu dan membuat solusi aneh dengan bolak-balik berkali-kali
- Bagaimana jika kita membuat sendiri game logika yang benar-benar baru dan belum pernah didokumentasikan di mana pun, lalu meminta LLM menyelesaikannya? Bagi saya yang bukan ahli, ini terlihat seperti cara yang baik untuk mengukur penalaran AI
- Setiap kali menguji LLM baru, saya memakai ini sebagai pertanyaan pertama, dan saya yakin model sebelum GPT-4 hampir tidak pernah mendekati jawaban benar. Bisakah Anda menunjukkan prompt yang bisa diselesaikan GPT-2 atau 3?
- Pada akhirnya, artinya ia tidak lebih dari Google yang mencolok
Akan menarik jika pekerjaan semacam ini bisa diperluas hingga menunjukkan batas penalaran matematis pada hewan dan manusia
Misalnya, seperti anjing sama sekali tidak akan memahami transformasi Fourier, besar kemungkinan ada ide-ide yang juga tidak bisa dipahami manusia
Jika kita bisa mengetahui batas kita, saya penasaran apakah kita bisa membuat mesin yang bernalar dengan cara yang tidak bisa dilakukan manusia
- Menganggap batas seperti itu benar-benar ada mungkin saja merupakan asumsi yang naif. Yang dimaksud “ada” di sini adalah batas yang berguna karena dapat dijelaskan secara konsisten dan relatif sederhana
  Dalam bahasa, gagasan serupa juga dieksplorasi lewat Noam Chomsky, dengan upaya menarik batas pemahaman yang jelas dan terformalkan untuk menunjukkan bagaimana kemampuan manusia berbeda dari hewan
  Secara pribadi, saya melihat pendekatan itu telah gagal secara total dan tidak bisa dipulihkan, tetapi penelitiannya sendiri bukan berarti tidak berguna
Bagi orang yang pernah menangani penalaran formal, hasil ini tidak mengejutkan. LLM tidak melakukan penalaran logis sungguhan dalam arti formal, dan SMT solver dapat melakukannya dengan lebih baik
Pada saat yang sama, jika data pelatihannya mencakup hampir semua tulisan yang pernah dihasilkan sejauh ini, maka hanya dengan menerapkan “langkah-langkah penalaran” dari data pelatihan pun banyak masalah logika dapat diselesaikan
Keduanya bisa benar pada saat yang sama, dan alih-alih kontradiksi, ini adalah dikotomi yang menarik

Memahami Batasan Penalaran Matematis LLM

Kemampuan penalaran matematika yang sulit dilihat hanya dengan GSM8K

Pembuatan templat dan metode evaluasi

Performa yang goyah meski struktur soalnya sama

Lebih sensitif terhadap perubahan angka daripada nama

Kerentanan yang tampak saat klausa bertambah dan pada GSM-NoOp

Bacaan terkait

1 komentar

Pendapat di Hacker News