LADDER: LLM yang Meningkatkan Diri lewat Dekomposisi Masalah Rekursif

(arxiv.org)

1 poin oleh GN⁺ 2025-03-08 | 1 komentar | Bagikan ke WhatsApp

LADDER adalah framework yang meningkatkan kemampuan pemecahan masalah LLM tanpa umpan balik manusia atau data kurasi, dengan membuatnya turun ke variasi masalah yang lebih mudah lalu naik kembali
Intinya adalah membuat gradien tingkat kesulitan hingga level yang dapat diselesaikan model, lalu menggunakan jawaban submasalah yang dapat diverifikasi sebagai batu pijakan untuk menyelesaikan masalah yang lebih sulit
Pada tugas integral matematika, akurasi Llama 3.2 3B untuk soal tingkat sarjana meningkat dari 1% menjadi 82%, sementara di bagian kontribusi nilai awal juga tertulis 2%
Qwen2.5 7B Deepseek-R1 Distilled mencatat 73% hanya dengan LADDER pada babak kualifikasi MIT Integration Bee, melampaui 42% milik GPT-4o dan performa manusia umum 15–30%
TTRL menerapkan variasi masalah dan reinforcement learning juga pada saat pengujian, menaikkan akurasi ujian yang sama dari 73% menjadi 90%, serta mencapai performa state-of-the-art yang lebih tinggi daripada OpenAI o1

Bottleneck Pembelajaran yang Ditargetkan LADDER

Reinforcement learning efektif untuk melatih LLM, tetapi membutuhkan tugas yang dapat diverifikasi yang sesuai dengan kemampuan model saat ini dan hasilnya dapat diperiksa
Jika masalah terlalu sulit dibanding kemampuan model, dapat terjadi collapse, yaitu pembelajaran berhenti atau performa memburuk
Dalam ranah penalaran kompleks, jarak antara tugas mudah dan tugas tingkat lanjut besar, sehingga penyusunan tingkat kesulitan yang memungkinkan pembelajaran bertahap menjadi penting
LADDER berangkat dari masalah kompleks dan menggunakan dekomposisi masalah rekursif, di mana model membuat beberapa variasi masalah yang lebih mudah, lalu tiap variasi kembali membuat sub-variasi
Setelah turun hingga masalah yang dapat diselesaikan model secara stabil, jawaban-jawaban tersebut digunakan sebagai batu pijakan untuk menyelesaikan variasi yang lebih sulit

Pembelajaran Mandiri dan Syarat Verifikasi

Alih-alih dataset atau umpan balik buatan manusia, framework ini menghasilkan gradien tingkat kesulitan yang alami dari kemampuan model yang sudah ada
Pembelajaran membutuhkan reward yang dapat diverifikasi, dan studi ini menggunakan integrasi numerik untuk memeriksa jawaban
Framework ini memungkinkan model menilai progresnya sendiri dan menyesuaikan jalur pembelajaran, sehingga reinforcement learning dapat diterapkan tanpa campur tangan manusia
Dekomposisi masalah rekursif dan pembelajaran mandiri digabungkan dengan reinforcement learning berbasis GRPO
Pembuatan variasi masalah dan verifikasi merupakan struktur yang bekerja ketika ada mekanisme verifikasi yang dapat dipercaya

Benchmark Integral dan Hasil TTRL

Pada benchmark integral matematika, LADDER menunjukkan peningkatan performa yang melampaui level yang dapat dicapai dengan sampling pass@k standar
Llama 3.2 3B mencapai akurasi hingga 82% pada soal integral tingkat sarjana
- Di abstrak, akurasi awal tertulis 1%
- Di bagian kontribusi, akurasi awal tertulis 2%
Qwen2.5 7B Deepseek-R1 Distilled mencapai akurasi 73% setelah penerapan LADDER pada babak kualifikasi MIT Integration Bee 2025
- GPT-4o: 42%
- Performa manusia umum: 15–30%
TTRL (Test-Time Reinforcement Learning) adalah proses micro-learning yang secara dinamis membuat variasi masalah pada saat pengujian dan menerapkan reinforcement learning pada tiap instance pengujian
TTRL memanfaatkan mekanisme verifikasi yang digunakan saat pelatihan juga pada saat inferensi untuk semakin menyempurnakan jawaban
Pada MIT Integration Bee, TTRL menaikkan 73% dengan LADDER saja menjadi 90%, serta mencapai performa state-of-the-art yang lebih tinggi daripada OpenAI o1
Hasil ini menunjukkan bahwa dekomposisi masalah strategis dan pembelajaran mandiri berbasis verifikasi dapat menghasilkan peningkatan performa besar bahkan tanpa perluasan arsitektur atau supervisi manusia

1 komentar

GN⁺ 2025-03-08

Opini Hacker News

Sampai heran kenapa minggu ini terlihat begitu banyak terobosan ML
Dalam dua hari terakhir saja, saya melihat setidaknya 3 hasil yang menarik dan menjanjikan, dan tim riset Google menunjukkan bahwa jaringan saraf dan CLA dapat digabungkan melalui gerbang logika digital
Jadi muncul kemungkinan untuk mereduksi berbagai masalah nonlinear menjadi sirkuit digital yang sederhana dan efisien, dan hari ini juga naik ke halaman depan HN: https://news.ycombinator.com/item?id=43286161
Karena terus bermunculan hasil yang bikin pusing tentang jaringan saraf serta logika dan kecerdasan secara umum, saya jadi membayangkan seberapa dekat kita dengan titik benar-benar memahami dari prinsip pertama bagaimana kecerdasan bekerja
- Hal-hal seperti ini selama kira-kira setahun terakhir lebih mirip resep rahasia yang disembunyikan orang-orang
  Setelah DeepSeek merilis open source, nilainya turun banyak, dan perusahaan tampaknya memilih menguangkannya lewat peningkatan reputasi sebelum didahului orang lain
  Pada September 2023 saya mencoba hal yang sama dengan fine-tuning Llama 2, tetapi tidak mendapat persetujuan untuk membagikannya kepada siapa pun
- Menarik melihat banyak pendekatan baru di AI/ML setelah industri akhirnya sadar bahwa scaling naif saja tidak akan membawa kita ke AGI
  Ada keuntungan bahwa pemain kecil pun bisa bersaing dan berkontribusi lewat inovasi nyata, kontras dengan suasana yang selama bertahun-tahun coba dibangun pemain besar seperti OpenAI/MS, seolah open source tidak akan pernah bisa mengejar
  Selama beberapa tahun terakhir terlalu banyak sumber daya, waktu, dan uang terbuang untuk memperbesar komputasi GPU murni
  Gary Marcus sudah menunjukkannya sejak beberapa tahun lalu, dan hasil GPT-4.5 yang mengecewakan setelah sekitar 2 tahun pelatihan tampak seperti buktinya
- Saat ini kondisinya seperti kebun baru yang penuh buah rendah gantung
  Terlepas dari utilitas akhirnya, semuanya berkilau, banyak hype, banyak kejutan, dan sampai sulit mengikuti derasnya uang yang mengalir
  Karena itu, cukup banyak orang paling kompeten jadi tertarik, dan secara alami upaya untuk menciptakan terobosan pun sedang berdatangan
- Terobosan LLM makin mirip terobosan baterai baru
  Hanya saja kita masih kurang mampu menguantifikasi trade-off-nya
- Sepertinya terkait dengan konferensi-konferensi penting yang akan segera mulai menerima paper
  Beberapa konferensi melarang publikasi preprint selama beberapa minggu sebelum pengumpulan, jadi mungkin orang-orang buru-buru mengunggahnya
Ini mengingatkan pada ucapan matematikawan teori bilangan terkenal Hendrik Lenstra: “Untuk setiap masalah yang tidak bisa dipecahkan, ada masalah yang lebih sederhana yang juga tidak bisa dipecahkan”
- Saya penasaran apakah kutipan ini benar-benar asli
  Saya familier dengan ucapan George Pólya, “Jika Anda tidak bisa memecahkan masalah yang diajukan, cobalah lebih dulu memecahkan masalah terkait yang lebih sederhana,” tetapi saya tidak menemukan sumber untuk kutipan Lenstra itu
- Ini tidak menghasilkan induksi yang rapi
  Kecuali kalau maksudnya sebagai hinaan
Pendekatan reinforcement learning saat pengujian mereka terlihat agak mencurigakan
Sejauh yang saya pahami, TTRL membuat model bahasa menghasilkan versi yang lebih mudah dari kasus uji, lalu menjalankan reinforcement learning pada masalah-masalah yang disederhanakan itu dengan harapan performa pada masalah asli juga membaik
Masalahnya, mereka memakai integrator numerik saat memverifikasi masalah yang disederhanakan
Bisa saja dibayangkan masalah yang dihasilkan hampir tidak berbeda dari masalah asli, dan model belajar mendekati kasus uji dalam kondisi sudah mengetahui jawabannya
Ini terlihat seperti belajar dari test set, meski bagian lain dari papernya oke
- Sepertinya tugas yang diselesaikan model adalah integrasi simbolik
  Ini masalah yang sulit dipecahkan model meskipun model boleh memakai alat integrator numerik pada masalah aslinya sendiri
LADDER menunjukkan efektif dalam integrasi matematika, dan katanya meningkatkan akurasi Llama 3.2 3B pada soal tingkat sarjana dari 1% menjadi 82%
- Perlu juga diperhitungkan bahwa sistem penulisan ulang suku modern sangat bagus performanya dalam integrasi simbolik: https://rulebasedintegration.org/
Frank Herbert sudah mengetahuinya
Ini pada dasarnya mendekati implementasi pemeriksaan diri rekursif Mentat dalam Dune
Pembelajaran/reinforcement learning saat pengujian jelas terlihat sebagai pendekatan yang cocok untuk AI matematika masa depan
Ini salah satu dari sedikit cara untuk mencurahkan jumlah sumber daya komputasi yang konyol pada masalah tertentu, misalnya 10^5 GPU selama berhari-hari, dan tetap berharap ada kemajuan bahkan ketika scaling inferensi saat pengujian pada awalnya tidak terlalu berhasil
Misalnya bayangkan menjalankan MCTS pada posisi Go dengan value/policy network yang buruk
AlphaProof sudah melakukan hal seperti ini, tetapi senang melihatnya lagi dengan hasil yang bagus
- Titik menariknya adalah seberapa jauh performa yang meningkat itu bisa didistilasi ke LLM berukuran kecil
  Dengan begitu kita akan punya peningkat kebijakan, yaitu reinforcement learning saat pengujian untuk masalah serupa, sehingga bisa lebih baik meniru cara kerja AlphaZero
  Dan kita juga bisa melihat seberapa kuat secara teoretis jaringan saraf kecil seperti 32B bisa menjadi
Sebagai catatan, tim Tufa Labs mencakup tim MindsAI yang dikenal lewat ARC-AGI
https://tufalabs.ai/team.html
Beberapa nama memang terlalu menggoda: https://arxiv.org/abs/1507.02672
Di akhir paper, mereka menyebut dua soal kualifikasi MIT Integration Bee 2025 yang terus dijawab salah oleh sistem
Mereka bilang soal-soal itu termasuk yang paling kompleks dalam ujian, tetapi yang pertama cuma ∫ ∛(x · ∜(x · ∜(x · √(x · √(x · ⋯ ))))) dx, dan pada akhirnya cukup menghitung 1/3 + 1/(34) + 1/(34*5) + ...
Jadi sulit menyebutnya matematika yang sangat tingkat lanjut
- Tetap saja ini model 7B
  Soalnya memang tidak tingkat lanjut, tetapi modelnya juga tidak begitu tingkat lanjut
Fakta bahwa ini bekerja walau sedikit saja sudah cukup menarik, dan lebih menarik lagi karena tampaknya bekerja sangat baik khususnya dalam matematika
Namun paper ini adalah bagian dari tren yang sedang berlangsung, yaitu mengaburkan batas antara pelatihan dan inferensi
Sebagian metodenya adalah memecah pertanyaan yang jawabannya tidak diketahui menjadi pertanyaan yang lebih mudah, lalu melakukan reinforcement learning pada pertanyaan-pertanyaan itu dengan GRPO yang memiliki pemeriksa numerik
Model yang diperkuat seperti itu kemudian bisa menjawab lebih banyak pertanyaan
Saya suka pendekatan ini
Manusia juga banyak melakukan hal seperti merenungkan sesuatu, membalik-baliknya di kepala, dan membuat analogi
Dengan menambahkan pembelajaran saat pengujian, kita bisa berpikir jauh lebih banyak daripada sekadar menambahkan token ke konteks dalam inferensi tetap
Sama seperti DeepSeek dan o1/o3 menunjukkan bahwa kemampuan bisa ditingkatkan lewat pembuatan dan evaluasi token pada waktu inferensi, tampaknya kemampuan juga bisa ditingkatkan lewat fine-tuning otomatis pada waktu inferensi
Kalau teknik-teknik seperti ini makin mapan, saya berharap muncul cara baru untuk membicarakan dan memikirkannya
Pada tingkat tertentu, semuanya tampak seperti bagian dari proses mendasar yang sama, dan bagaimanapun juga ini benar-benar keren

LADDER: LLM yang Meningkatkan Diri lewat Dekomposisi Masalah Rekursif

Bottleneck Pembelajaran yang Ditargetkan LADDER

Pembelajaran Mandiri dan Syarat Verifikasi

Benchmark Integral dan Hasil TTRL

Bacaan terkait

1 komentar

Opini Hacker News