LIMO: Untuk Penalaran, Lebih Sedikit Lebih Baik (Less is More for Reasoning)

(arxiv.org)

3 poin oleh GN⁺ 2025-02-10 | 1 komentar | Bagikan ke WhatsApp

Berbeda dari anggapan umum bahwa penalaran matematika kompleks membutuhkan data terawasi berskala besar, LIMO menunjukkan bahwa kemampuan penalaran tingkat lanjut dapat dimunculkan hanya dengan 800 sampel
Dengan menerapkan supervised fine-tuning (SFT) sederhana pada Qwen2.5-32B-Instruct, LIMO mencapai akurasi 63,3% di AIME24 dan 95,6% di MATH500, jauh melampaui model fine-tuning sebelumnya yang hanya mencapai 6,5% dan 59,2%
Data pelatihan hanya sekitar 1% dari pendekatan sebelumnya, tetapi menunjukkan kemampuan generalisasi yang lebih baik dibanding model yang dilatih dengan data 100 kali lebih banyak pada berbagai benchmark dan skenario yang belum pernah dilihat sebelumnya
Intinya adalah hipotesis bahwa pengetahuan domain yang sudah terenkode dalam model dasar dan sedikit contoh berkualitas tinggi yang memandu proses penyelesaian bekerja seperti template kognitif
Bottleneck dalam pembelajaran penalaran lebih bergantung pada kelengkapan pengetahuan prapelatihan dan kualitas contoh pascapelatihan yang membuat model memanfaatkan rantai penalaran, dibanding kompleksitas tugas itu sendiri

Anggapan Umum yang Disasar Hipotesis LIMO

Dalam pembelajaran penalaran selama ini, ada kecenderungan kuat untuk menganggap bahwa puluhan ribu hingga ratusan ribu contoh diperlukan agar model dapat menyelesaikan soal matematika dan pemrograman
Pendekatan seperti ini menggunakan data terawasi berskala besar untuk menunjukkan kepada model logika multi-langkah, penerapan pengetahuan domain, dan jalur penyelesaian yang terstruktur
Meski ada sejumlah kisah sukses, pengumpulan dan pelatihan data berskala besar disertai biaya komputasi yang besar
Hipotesis LIMO memandang bahwa ambang untuk memunculkan penalaran kompleks lebih banyak ditentukan oleh dua kondisi berikut daripada tingkat kesulitan tugas
- Apakah pengetahuan yang diperlukan secara laten sudah ada di dalam parameter model
- Apakah sedikit contoh dapat menunjukkan proses pemecahan masalah secara efektif dan membuat model memanfaatkan ruang komputasi saat inferensi

Mengapa Bisa dengan Data Sedikit

Model dasar terbaru memasukkan jauh lebih banyak konten matematika pada tahap prapelatihan
- Total data pelatihan Llama 2 adalah 1,8T token
- Llama 3 menggunakan 3,7T token untuk penalaran matematika
Perubahan ini menggeser fokus pembelajaran penalaran dari memasukkan pengetahuan matematika baru menjadi menarik keluar pengetahuan yang sudah terenkode
Ekspansi komputasi saat inferensi juga merupakan kondisi penting
- Teknik yang memperpanjang rantai penalaran panjang secara signifikan meningkatkan kemampuan penalaran
- Komputasi saat inferensi bekerja seperti ruang kerja kognitif tempat model mengurai dan menerapkan pengetahuan prapelatihan
LIMO memandang bahwa jika pengetahuan prapelatihan yang kaya digabungkan dengan sumber daya komputasi saat inferensi yang memadai, kemampuan penalaran dapat diaktifkan dengan sedikit sampel berkualitas tinggi alih-alih data dalam jumlah besar

Cara Memilih 800 Sampel

Alih-alih mengumpulkan banyak data, pendekatan LIMO dimulai dari seleksi ketat untuk menemukan sampel berkualitas tinggi
Filtering berlapis diterapkan pada kumpulan besar pasangan QA
- Melakukan filtering tingkat kesulitan kasar untuk terlebih dahulu menghapus soal mudah
- Mengidentifikasi soal yang menantang melalui evaluasi tingkat kesulitan yang lebih rinci
- Memastikan cakupan yang komprehensif dengan mendiversifikasi poin pengetahuan
Rantai penalaran ditinjau secara terpisah
- Konsistensi logis
- Kejelasan langkah demi langkah
- Ketepatan penyelesaian
Melalui proses ini, dibuat dataset kecil tetapi kuat yang akhirnya terdiri dari 800 sampel pelatihan

Performa Benchmark

LIMO berbasis Qwen2.5-32B-Instruct dan melakukan SFT sederhana hanya dengan 800 sampel terseleksi
Performa utamanya adalah sebagai berikut
- Akurasi AIME24 63,3%
- Akurasi MATH500 95,6%
Model fine-tuning sebelumnya mencatat AIME24 6,5% dan MATH500 59,2%, menunjukkan selisih besar dengan LIMO
Data pelatihan yang dibutuhkan hanya sekitar 1% dari pendekatan sebelumnya
Pada berbagai benchmark matematika dan multidisiplin, LIMO menunjukkan generalisasi out-of-distribution yang kuat dan secara keseluruhan mencapai peningkatan absolut 45,8%
Dalam beberapa skenario yang belum pernah dilihat sebelumnya, LIMO juga berkinerja lebih tinggi daripada model yang dilatih dengan data 100 kali lebih banyak

Kontribusi dan Materi Terbuka

Kontribusi utama LIMO adalah merumuskan Less-Is-More Reasoning Hypothesis, yaitu bahwa kemampuan penalaran kompleks dapat dimunculkan dengan sedikit contoh
Dataset disusun berdasarkan prinsip LIMO, lalu Qwen2.5-32B-Instruct di-fine-tune dengan SFT sederhana
Hasil eksperimen menunjukkan performa kompetitif pada benchmark penalaran matematika yang sulit serta performa out-of-distribution yang unggul
Analisis dan ablation study memverifikasi efektivitas prinsip pemilihan data, serta mengeksplorasi kemungkinan penerapan berdasarkan tingkat pengetahuan model dasar, ukuran model, dan perbedaan arsitektur
LIMO juga meneliti kebutuhan data minimum untuk memperoleh performa kompetitif
Model, kode, dan dataset terseleksi tersedia melalui repositori GitHub

1 komentar

GN⁺ 2025-02-10

Komentar Hacker News

Hasil yang mengesankan, tetapi ada dua hal yang layak dicatat: model ini di-fine-tune dari Qwen-2.5 Instruct, yang dalam pra-pelatihan dan fine-tuning terawasi sudah mencakup jutaan contoh matematika yang dikurasi dengan baik.
Selain itu, untuk membuat 817 contoh matematika yang sempurna bagi LIMO, mereka menyaring kumpulan 10 juta soal matematika menggunakan model mutakhir seperti R1.
Dengan kata lain, banyak kecerdasan sudah dikerahkan untuk membuat data fine-tuning yang sangat informatif dan terdistilasi, jadi saya tidak yakin apakah ini lebih atau kurang mengesankan dibanding sekadar melakukan fine-tuning pada seluruh kumpulan awal 10 juta soal dan mendapatkan hasil yang sama.
Namun opsi terakhir itu mungkin kurang menarik sebagai judul berita.
- Para penulis juga menyebutkan kedua hal ini di abstrak sebagai kondisi kritis untuk memunculkan penalaran kompleks: model dasar pra-pelatihan yang sangat matang, dan kumpulan contoh pasca-pelatihan berkualitas sangat tinggi.
  Secara intuitif, masalah fine-tuning dengan kumpulan awal 10 juta contoh tampaknya membutuhkan data fine-tuning dalam jumlah sangat besar agar performa bergerak, sedangkan 817 contoh saja sulit mengubah gradien secara besar.
  Kumpulan awal itu pada dasarnya berperan memaksakan regularisasi yang cukup kuat.
  Belakangan ini ada minat yang makin besar untuk menunjukkan bahwa data kecil dan scaling saat inferensi dapat memberi hasil besar.
  Contoh terbaru termasuk TinyZero: https://github.com/Jiayi-Pan/TinyZero, dan s1 Simple Test Time Scaling: https://arxiv.org/abs/2501.19393.
- Saya tidak mengerti mengapa penggunaan informasi dari model sebelumnya untuk membuat model yang lebih efisien begitu dikritik.
  Memanfaatkan riset terdahulu untuk membuat kemajuan bukanlah hal yang salah, dan peningkatan efisiensi juga merupakan kemajuan.
  Saat membuat kombucha, kita tidak mengkritik orang karena tidak merakit SCOBY mikroba demi mikroba, bukan?
- Memilih 817 sampel dari 10 juta juga bisa dianggap mengandung 12.290 bit informasi.
- Bayangkan ada buku teks yang memberi pemahaman yang dibutuhkan untuk mendapat skor tinggi dalam olimpiade matematika, tetapi soal yang dijelaskannya kurang dari 1.000.
  Itu sendiri merupakan penemuan besar dalam metakognisi.
- Makalah ini dan penjelasan tersebut cukup mirip dengan upaya membuat buku teks contoh kognitif yang “sangat informatif dan terdistilasi” untuk mengajarkan tahap penalaran berikutnya kepada siswa yang telah menyelesaikan pembelajaran dasar.
  Kemajuan LLM selama beberapa tahun terakhir menunjukkan bahwa respons “penalaran” manusia dapat diprediksi dengan memodelkan reaksi manusia yang masuk akal seolah-olah dihasilkan oleh LLM.
  Dengan kata lain, banyak respons lebih mirip rantai pembuatan token daripada penalaran yang benar-benar direnungkan.
  Ini menjadi lebih jelas ketika duduk di samping seseorang yang “berbicara sendiri” saat memecahkan soal.
  Definisi tokgen bisa dipahami dengan mendengarkan percakapan di restoran.
  Banyak percakapan bukanlah pemikiran mendalam, melainkan respons yang hampir sepenuhnya dapat diprediksi dari prompt.
  Untuk membedakannya dari ucapan yang keluar setelah berhenti sejenak dan merenung, kita bisa memakai label thought dan token generation, yaitu tokgen.
Saya bukan ahli di bidang ini, tetapi menurut saya model yang dipra-latih dari internet sudah memperoleh sebagian besar kemampuan yang diperlukan untuk penalaran matematika.
Hanya saja, karena tujuannya adalah memprediksi distribusi kata berikutnya di seluruh internet, dan sebagian besar teks internet bukan teks penalaran seperti itu, model biasanya tampak tidak banyak menggunakan kemampuan tersebut.
Ini mirip dengan beberapa tahun lalu pada model generasi gambar, ketika menambahkan “unreal engine” ke prompt membuat kualitas hasil meningkat tajam.
Model dilatih untuk menghasilkan distribusi gambar internet, dan sebagian besarnya tidak terlalu mengesankan, tetapi gambar yang memuat “unreal engine” biasanya adalah screenshot berkualitas tinggi, sehingga distribusi generasinya bergeser ke arah kualitas tinggi.
Jadi masuk akal bahwa kemampuan penalaran matematika dapat meningkat dengan sedikit contoh pelatihan, karena model sebenarnya sudah memiliki sebagian besar kemampuan laten dan hanya perlu menyesuaikan beberapa koneksi agar benar-benar menggunakannya.
- Ini cukup mirip dengan ketika Anthropic menganalisis dan memanipulasi konsep dalam nilai aktivasi untuk membuat golden gate Claude, atau memaksimalkan/meminimalkan fitur seperti “buggy code”[0].
  [0]: https://www.anthropic.com/news/mapping-mind-language-model
- Menambahkan sedikit di sini, identifikasi pola dan melanjutkannya juga dapat diterapkan pada evaluasi penalaran simbolik.
  Misalnya, hal itu terlihat jika semantik bahasa pemrograman fungsional didefinisikan sebagai aturan penulisan ulang.
  Jika model dapat mengubah soal ke dalam bahasa yang cukup presisi, mulai mencocokkan pola dengan program generatif yang terenkode di LLM, dan mengevaluasi implikasi logis, kita memasuki wilayah yang sangat menarik.
  Prediksi autoregresif dapat berubah menjadi evaluasi dan komputasi simbolik yang bertahap, sementara LLM di latar belakang tetap memandu pilihan evaluasi dan pencarian tujuan.
  Jika model dasar sudah memiliki cukup isi untuk menempelkan bahasa yang lebih presisi secara rapi, korpus raksasa tampaknya tidak selalu diperlukan untuk memperkuat aturan evaluasi semacam ini.
- Penalaran yang kebanyakan ditunjukkan R1 bagi saya terdengar seperti ekspresi anak kelas 5 SD, sehingga mendukung penjelasan di atas.
  Meski begitu, jika pengetahuan yang diperlukan untuk penalaran matematika terus dikompresi, mungkin pada akhirnya akan muncul bentuk gabungan antara teori kategori dan sesuatu yang berbasis aturan seperti Prolog.
- Ini bisa berarti bahwa fine-tuning model dasar dengan pembelajaran terawasi atau reinforcement learning pada umumnya tidak membuat model secara intrinsik menjadi lebih pintar; hanya pembelajaran mandiri awal selama pra-pelatihan yang melakukannya.
  Tentu saja, kalau LLM benar-benar tidak bisa menjadi lebih pintar dengan reinforcement learning dalam jumlah berapa pun, itu juga terasa aneh.
Menurut dugaan saya, beberapa bidang seperti matematika bersifat umum, tetapi ukuran kosakata efektif-nya luar biasa besar, seperti semua angka yang mungkin, sehingga menjadi lebih mahal jika dilatih dengan cara yang berlaku untuk bidang dengan kosakata berukuran normal
Jika melatih langkah-langkah penalaran pada domain masalah seperti ini, kita bisa memperkuat kosakata umum yang relatif sedikit seperti “penjumlahan”, “invers”, dan “menyelesaikan”
Dengan begitu, aritmetika kombinasi angka dipisahkan dari masing-masing soal, dan tidak terlalu menekankan jawaban sekali jadi
Cukup melatih N contoh penalaran dan M contoh aritmetika, tidak perlu melatih N*M soal matematika lengkap
Jadi sumber daya penalaran memang perlu dipakai lebih banyak, tetapi kita bisa mendapat jawaban yang lebih baik dengan pelatihan yang lebih sedikit
Mengesampingkan teorinya, untuk penerapan tampaknya bagus memakai proses penalaran umum seperti ini untuk menyusun rumus akhir, lalu menyerahkannya ke evaluator tradisional
Dengan begitu, penalaran dan pelatihannya cukup sampai pada manipulasi simbol
Ini seperti pendekatan Wolfram Alpha, di mana pemrosesan bahasa alami baru jauh belakangan diserahkan ke evaluator
- Pertanyaan terkait: pernahkah ada LLM yang merupakan kalkulator sempurna?
  Maksudnya, jika diberi ekspresi yang berisi operasi standar +/- dan bilangan bulat, ia selalu mengembalikan hasil yang benar
  Saya tidak ingat pernah melihat makalah terkait, tetapi saya juga bukan ahlinya
Belakangan saya merasa membaca dua hal yang tampak saling bertentangan: pernyataan bahwa LLM sama sekali tidak bisa menggeneralisasi pembuktian teorema, dan pernyataan dalam makalah ini bahwa “LLM modern mungkin sudah memiliki pengetahuan matematika yang kaya di ruang parameternya, dan tugasnya bergeser dari akuisisi pengetahuan menjadi pemunculan pengetahuan”
Sekarang saya tidak tahu mana yang benar
- Untuk menelan pil pahit ini, tampaknya kita harus mengakui bahwa seluruh pengetahuan manusia pada dasarnya adalah distribusi hingga yang relatif “kecil”, dan model kini sudah cukup besar untuk melakukan pencocokan pola di atasnya, sehingga LLM bisa “menggeneralisasi”
- Mungkinkah LLM dapat menghasilkan ruang pencarian yang tepat untuk suatu masalah, tetapi proses mengidentifikasi solusi di dalamnya tidak efisien?
  Dengan kata lain, sebagian besar siswa yang mempelajari catatan kuliah matematika SMA memiliki kemungkinan untuk meraih medali emas olimpiade di dalam dirinya
  Karena matematika itu sendiri tidak jauh melampaui materi SMA
  Namun membawa siswa SMA sungguhan ke tingkat medali emas olimpiade itu sulit, dan mungkin mirip dengan sesuatu seperti P versus NP
- Baik dari pihak yang melebih-lebihkan maupun yang skeptis, kita akan terus melihat banyak orang mengatakan hal-hal yang dapat diverifikasi
  Kadang mereka tetap mengulang klaim yang sama meski kita punya tangkapan layar yang bertentangan dengan klaim mereka
  Khusus untuk para skeptis, kita bisa mencoba sendiri LLM terbaik dan memeriksa “apakah ini benar-benar melakukan hal yang diklaim seseorang tidak bisa dilakukan?”
  Sering kali memang bisa
  Jika melihat makalah yang baru-baru ini diajukan para skeptis, kadang mereka membuat klaim tentang LLM terbaru tetapi hanya menguji versi yang sudah lewat lebih dari setahun
  Baru-baru ini hal seperti itu benar-benar terjadi^
  Jika ingin yakin mana yang benar, tidak ada cara lain selain mencobanya sendiri dan menilai apa yang benar
  ^ https://x.com/tylercowen/status/1881051976102035880
- Seseorang bisa memiliki pengetahuan matematika yang kaya tetapi tetap tidak pandai membuktikan teorema
  Sebaliknya, seseorang juga bisa pandai membuktikan soal matematika kompetisi tanpa memiliki pengetahuan matematika yang kaya
  Bisa juga seseorang memiliki pengetahuan matematika yang kaya dan pandai membuktikan teorema, tetapi terutama hanya di bidang keahliannya sendiri
- Pernyataan “LLM tidak akan pernah bisa melakukan X” rasanya memang selalu salah
Seperti model difusi gambar yang menunjukkan bahwa perkiraan masuk akal atas seluruh dunia visual bisa diringkas ke dalam model 5GB, apakah pola penalaran juga bisa dikompresi dengan cara serupa?
Apakah pola penalaran yang dipakai di semua bidang sebenarnya cukup sedikit untuk bisa dihitung, sehingga dapat ditangkap dengan kumpulan pelatihan yang relatif kecil?
- Menurut saya, “pola penalaran” yang benar-benar umum, yaitu strategi atau pendekatan, tidak terlalu banyak
  Namun penalaran terapan membutuhkan bukan hanya pola penalaran, melainkan juga repertoar langkah penalaran valid yang spesifik domain yang dapat diterapkan menurut pendekatan tersebut
  Selain itu, dibutuhkan juga kombinasi kemampuan untuk melewati kebuntuan ketika seluruh pengetahuan dan langkah penalaran yang telah dipelajari pun belum membawa ke solusi
  Dalam bidang seperti matematika, beberapa langkah penalaran khusus matematika saja mungkin sudah bisa membawa cukup jauh, tetapi matematika sendiri juga memiliki banyak subbidang seperti aljabar, geometri, kalkulus, dan topologi
  Sepengetahuan saya, teknik dari satu bidang hanya berguna di bidang lain sejauh masalahnya dapat dipetakan ke domain lain tersebut
Saya penasaran apakah kumpulan 817 soal matematika yang dipilih dengan cermat ini juga berguna sebagai buku ajar untuk melatih siswa matematika dengan beragam soal
Jika, seperti hipotesis LIMO, dataset kecil dapat dipakai untuk fine-tuning dan memunculkan potensi penalaran efisien di dalam model kecil, maka bisa terjadi pergeseran kekuasaan besar dari model raksasa ke model kecil
Jika proses ini bisa diulang, tampaknya ia menyediakan kekuatan yang hampir tak terbatas
Namun agar siklus itu tetap berjalan, dataset harus memiliki sifat tertentu
Ia harus mengajarkan cara menyesuaikan penalaran dengan ukuran model, dan harus divalidasi seperti penutup minimum yang memperluas kedalaman rantai penalaran dengan faktor percabangan kecil di ruang pencarian untuk mendeteksi pola yang dalam
Menarik melihat bidang ini makin lama makin menjadi pedagogi LLM
Penalaran adalah seni prediksi
Ini adalah proses menyuling banyak pengamatan atas realitas menjadi model realitas kecil yang cukup baik untuk memprediksi pengamatan baru
“Apa model paling sederhana yang menjelaskan sebagian besar hal yang saya lihat?” adalah pertanyaan inti yang ingin dijawab oleh pikiran
Jika kita menguasai seni membuat model seperti itu, kita akan mencocokkan pola masalah baru dengan model kita dan menggunakan model itu untuk memprediksi hasilnya

LIMO: Untuk Penalaran, Lebih Sedikit Lebih Baik (Less is More for Reasoning)

Anggapan Umum yang Disasar Hipotesis LIMO

Mengapa Bisa dengan Data Sedikit

Cara Memilih 800 Sampel

Performa Benchmark

Kontribusi dan Materi Terbuka

Bacaan terkait

1 komentar

Komentar Hacker News