1 poin oleh GN⁺ 2025-03-08 | 1 komentar | Bagikan ke WhatsApp

LADDER: Meningkatkan Kemampuan Pemecahan Masalah LLM melalui Peningkatan Diri

  • Pengenalan LADDER: LADDER adalah kerangka kerja yang memungkinkan large language model (LLM) meningkatkan kemampuan pemecahan masalahnya sendiri dengan secara bertahap mengubah masalah kompleks menjadi bentuk yang lebih sederhana. Tanpa dataset yang sudah ada maupun umpan balik manusia, kerangka ini memanfaatkan kemampuan model itu sendiri untuk menghasilkan transformasi masalah yang lebih mudah.

  • Efektivitas: LADDER meningkatkan akurasi Llama 3.2 3B di bidang integral matematika dari 1% menjadi 82%, serta membuat Qwen2.5 7B Deepseek-R1 Distilled mencapai 73% pada babak penyisihan MIT Integration Bee.

  • Pengenalan TTRL: TTRL (Test-Time Reinforcement Learning) adalah metode yang melakukan reinforcement learning saat inferensi melalui transformasi soal uji. Dengan ini, Qwen2.5 7B Deepseek-R1 Distilled mencatat skor state-of-the-art 90% pada babak penyisihan MIT Integration Bee, melampaui performa OpenAI o1.

  • Pentingnya hasil: Hasil ini menunjukkan bahwa pembelajaran yang otonom dan strategis dapat menghasilkan peningkatan kemampuan yang signifikan bahkan tanpa penskalaan arsitektur atau supervisi manusia.

1 komentar

 
GN⁺ 2025-03-08
Komentar Hacker News
  • Penasaran apa yang sedang terjadi minggu ini. Dalam dua hari terakhir, saya sudah beberapa kali melihat terobosan menarik di machine learning

    • Tim riset Google menemukan bahwa NN dan CLA dapat digabungkan melalui gerbang logika digital. Ini memungkinkan banyak masalah nonlinier direduksi menjadi rangkaian digital yang sederhana dan efisien
    • Penemuan baru terkait jaringan saraf dan logika/kecerdasan terus bermunculan, dan saya terus membayangkan seberapa dekat kita dengan memahami prinsip-prinsip kecerdasan
  • Saya teringat kutipan dari matematikawan teori bilangan ternama Hendrik Lenstra

    • Ada ungkapan, "Untuk setiap masalah yang tak terpecahkan, ada masalah yang lebih sederhana yang juga tak terpecahkan"
  • Pendekatan reinforcement learning saat waktu uji mereka agak meragukan

    • TTRL bekerja dengan meminta model bahasa menghasilkan versi yang lebih sederhana dari kasus uji. Jika diperoleh masalah yang lebih sederhana, reinforcement learning dilakukan terhadap masalah itu untuk mencoba meningkatkan performa model pada masalah aslinya
    • Masalahnya, mereka menggunakan integrator numerik untuk memverifikasi masalah yang lebih sederhana. Saya bisa membayangkan skenario di mana masalah yang dihasilkan sebenarnya hampir tidak lebih sederhana, dan model pada praktiknya bisa berlatih pada kasus uji yang sesungguhnya. Ini seperti berlatih pada set uji
    • Bagian lain dari makalahnya cukup baik
  • Ini menunjukkan efektivitas LADDER pada topik integrasi matematika. Akurasi Llama 3.2 3B meningkat dari 1% menjadi 82%

    • Fakta bahwa metode ini bekerja saja sudah menarik. Terutama menarik bahwa ini bekerja baik untuk matematika
    • Makalah ini adalah bagian dari gerakan yang saat ini mulai mengaburkan batas antara pelatihan dan inferensi. Sebagian dari metode mereka adalah memecah pertanyaan yang jawabannya belum diketahui menjadi pertanyaan yang lebih sederhana, lalu menggunakan 'checker' numerik untuk melakukan GRPO. Model yang diperkuat ini kemudian bisa menjawab lebih banyak pertanyaan
    • Saya rasa manusia juga banyak berpikir dengan cara seperti ini. Merenungkan sesuatu, memutarnya di kepala, membuat analogi, dan sebagainya. Menambahkan pelatihan saat waktu uji adalah cara untuk bisa berpikir lebih banyak, dibanding sekadar menambahkan token ke konteks untuk inferensi yang tetap
    • Seperti DeepSeek dan o1/o3 menunjukkan bahwa kapasitas bisa ditingkatkan lewat pembuatan dan evaluasi token saat waktu inferensi, tampaknya kapasitas juga bisa ditingkatkan lewat fine-tuning otomatis saat waktu inferensi
    • Jika teknik-teknik ini menjadi mapan, saya harap kita bisa membicarakan dan memikirkannya dengan cara baru. Pada level tertentu, semuanya adalah bagian dari proses dasar yang sama
    • Bagaimanapun, ini sangat keren
  • Frank Herbert sudah mengetahui ini. Ini adalah implementasi inspeksi diri rekursif para Mentat seperti yang digambarkan dalam Dune

  • Pelatihan/reinforcement learning saat waktu uji adalah pendekatan yang cocok untuk AI matematika masa depan. Ini kemungkinan salah satu dari sedikit cara untuk menggunakan komputasi dalam jumlah besar pada sebuah masalah tertentu. Alphaproof sudah melakukan ini, tetapi menyenangkan melihat hal ini dilakukan lagi dan menghasilkan hasil yang baik

  • Sedikit di luar topik, tapi situs mereka indah. Rasanya seperti menemukan tambang emas

  • Beberapa nama memang terlalu menarik

  • Di akhir makalah, mereka menyebut dua soal dari ujian penyisihan 2025 MIT Integration Bee. Katanya sistem terus memberikan jawaban yang salah

    • Mereka mengatakan pertanyaan-pertanyaan ini termasuk yang paling kompleks di ujian itu, tetapi pertanyaan pertama hanyalah
    • menghitung ∫ ∛(x · ∜(x · ∜(x · √(x · √(x · ⋯ ))))) dx
    • Ini sama dengan menghitung 1/3 + 1/(34) + 1/(34*5) + ... . Itu bukan matematika tingkat sangat lanjut