LADDER: Meningkatkan Kemampuan Pemecahan Masalah LLM melalui Peningkatan Diri
-
Pengenalan LADDER: LADDER adalah kerangka kerja yang memungkinkan large language model (LLM) meningkatkan kemampuan pemecahan masalahnya sendiri dengan secara bertahap mengubah masalah kompleks menjadi bentuk yang lebih sederhana. Tanpa dataset yang sudah ada maupun umpan balik manusia, kerangka ini memanfaatkan kemampuan model itu sendiri untuk menghasilkan transformasi masalah yang lebih mudah.
-
Efektivitas: LADDER meningkatkan akurasi Llama 3.2 3B di bidang integral matematika dari 1% menjadi 82%, serta membuat Qwen2.5 7B Deepseek-R1 Distilled mencapai 73% pada babak penyisihan MIT Integration Bee.
-
Pengenalan TTRL: TTRL (Test-Time Reinforcement Learning) adalah metode yang melakukan reinforcement learning saat inferensi melalui transformasi soal uji. Dengan ini, Qwen2.5 7B Deepseek-R1 Distilled mencatat skor state-of-the-art 90% pada babak penyisihan MIT Integration Bee, melampaui performa OpenAI o1.
-
Pentingnya hasil: Hasil ini menunjukkan bahwa pembelajaran yang otonom dan strategis dapat menghasilkan peningkatan kemampuan yang signifikan bahkan tanpa penskalaan arsitektur atau supervisi manusia.
1 komentar
Komentar Hacker News
Penasaran apa yang sedang terjadi minggu ini. Dalam dua hari terakhir, saya sudah beberapa kali melihat terobosan menarik di machine learning
Saya teringat kutipan dari matematikawan teori bilangan ternama Hendrik Lenstra
Pendekatan reinforcement learning saat waktu uji mereka agak meragukan
Ini menunjukkan efektivitas LADDER pada topik integrasi matematika. Akurasi Llama 3.2 3B meningkat dari 1% menjadi 82%
Frank Herbert sudah mengetahui ini. Ini adalah implementasi inspeksi diri rekursif para Mentat seperti yang digambarkan dalam Dune
Pelatihan/reinforcement learning saat waktu uji adalah pendekatan yang cocok untuk AI matematika masa depan. Ini kemungkinan salah satu dari sedikit cara untuk menggunakan komputasi dalam jumlah besar pada sebuah masalah tertentu. Alphaproof sudah melakukan ini, tetapi menyenangkan melihat hal ini dilakukan lagi dan menghasilkan hasil yang baik
Sedikit di luar topik, tapi situs mereka indah. Rasanya seperti menemukan tambang emas
Beberapa nama memang terlalu menarik
Di akhir makalah, mereka menyebut dua soal dari ujian penyisihan 2025 MIT Integration Bee. Katanya sistem terus memberikan jawaban yang salah