LoPE: Menambahkan Teks Latin Acak di Depan Meningkatkan Penalaran LLM (makalah arXiv)
Ringkasan inti
LoPE adalah teknik yang menyisipkan Lorem ipsum dolor sit amet ... di depan prompt saat pelatihan RL. Teknik ini mengatasi masalah "zero-advantage" ketika semua sampel gagal pada soal sulit sehingga sinyal pembelajaran menjadi 0.
Hasil utama:
- Rata-rata benchmark matematika +4,62 poin berdasarkan Qwen3-4B
- Peningkatan performa relatif 22% pada AMC 2023
- Satu-satunya metode yang berhasil menembus 50 soal sulit yang semuanya gagal diselesaikan metode yang ada
Poin menarik untuk dibaca
Menarik untuk melihat mengapa "teks yang tampak seperti bahasa tetapi tidak bermakna" berbasis Latin ini efektif, serta mekanisme bagaimana teks tersebut mengganggu lintasan penalaran dasar model untuk memastikan keragaman eksplorasi.
Belum ada komentar.