- Large language model (LLM) kini diusulkan menggunakan strategi penalaran baru RLM (Recursive Language Model) agar dapat menangani prompt masukan yang sangat panjang
- RLM memperlakukan prompt panjang sebagai bagian dari lingkungan eksternal, sehingga model dapat menjelajahinya, memecahnya, dan memanggilnya secara rekursif lewat pemrograman
- Pendekatan ini melampaui batas context window yang ada dan dapat memproses input hingga puluhan juta token, dengan kualitas yang jauh lebih baik dibanding LLM konvensional
- Hasil eksperimen menunjukkan bahwa RLM berbasis GPT-5 dan Qwen3-Coder memberikan peningkatan performa dua digit pada berbagai tugas dokumen panjang, dengan biaya yang serupa atau lebih rendah
- Metode ini dinilai sebagai pendekatan umum yang dapat secara signifikan memperluas kemampuan penalaran LLM dengan mengatasi batas pemrosesan konteks panjang
Ikhtisar RLM
- Recursive Language Model (RLM) dirancang agar LLM tidak langsung memasukkan input panjang ke jaringan saraf, melainkan memperlakukannya sebagai variabel dalam lingkungan eksternal untuk berinteraksi
- Prompt input P dimuat sebagai variabel dalam lingkungan Python REPL, lalu LLM menelusuri, memecah, dan memanggilnya secara rekursif melalui kode
- LLM mengenali status lingkungan REPL (misalnya panjang string), mengamati efek samping dari eksekusi kode, lalu menyelesaikan masalah secara bertahap
- Struktur ini mengatasi masalah hilangnya detail pada pendekatan compaction konteks atau berbasis ringkasan yang sudah ada
- RLM diajukan sebagai paradigma penalaran umum yang dapat memperluas panjang input maupun output
Keterbatasan pendekatan sebelumnya
- LLM konvensional mengalami fenomena context rot, yakni penurunan performa tajam pada input panjang akibat batas context window
- Teknik compaction konteks mengulang proses peringkasan setelah melewati panjang tertentu, tetapi tidak cocok untuk tugas yang memerlukan akses ke informasi detail
- RLM menangani prompt sebagai objek eksternal sehingga ukuran input dapat diperluas melampaui batas model
Pengaturan eksperimen
- Model evaluasi: GPT-5 (OpenAI, 2025) dan Qwen3-Coder-480B-A35B (Team, 2025)
- Pembanding:
- pemanggilan langsung LLM dasar
- summary agent
- agen berbasis pencarian CodeAct + BM25
- RLM (dengan lingkungan REPL) dan RLM (REPL, tanpa pemanggilan rekursif)
- Dalam eksperimen GPT-5, GPT-5-mini digunakan untuk pemanggilan rekursif dan GPT-5 sebagai model root guna menyeimbangkan performa dan biaya
Tugas evaluasi
- S-NIAH: masalah tunggal ‘needle-in-a-haystack’, dengan biaya pemrosesan tetap terlepas dari panjang input
- BrowseComp-Plus: tugas tanya jawab multi-hop lintas banyak dokumen, dengan jawaban tersebar di antara 1000 dokumen
- OOLONG: tugas penalaran dokumen panjang yang mengharuskan hampir seluruh item input ditransformasikan dan diintegrasikan secara semantik, dengan biaya pemrosesan yang meningkat linear terhadap panjang input
- OOLONG-Pairs: varian OOLONG yang membutuhkan penggabungan informasi berpasangan, dengan biaya pemrosesan yang berbanding kuadrat terhadap panjang input
- LongBench-v2 CodeQA: tugas pilihan ganda yang menuntut pemahaman repositori kode dan masih sulit bahkan bagi model terbaru
Hasil utama
- RLM hampir tidak mengalami penurunan performa pada konteks panjang dibanding GPT-5
- GPT-5 mengalami penurunan tajam saat panjang input dan kompleksitas tugas meningkat
- RLM dapat secara efektif memproses input yang melampaui batas 272K token (hingga 10M+ token)
- Pada semua tugas dokumen panjang, RLM menunjukkan peningkatan performa dua digit dibanding metode lain
- Efisiensi biaya juga tetap terjaga, dengan biaya per kueri yang serupa atau lebih rendah daripada pendekatan sebelumnya
Analisis kompleksitas tugas dokumen panjang
- Context window efektif LLM bisa menjadi lebih pendek daripada batas fisiknya, tergantung pada kompleksitas tugas
- Masalah NIAH yang sederhana masih dapat diselesaikan pada 1M+ token
- Tugas kompleks seperti keluarga OOLONG mengalami penurunan performa bahkan pada panjang yang jauh lebih pendek
- Karena itu, kepadatan informasi tugas dan korelasinya dengan panjang input perlu dipertimbangkan bersama
Kesimpulan
- RLM memperluas kemampuan penalaran LLM secara rekursif, sehingga dapat menangani input superpanjang yang tidak dapat diproses model sebelumnya
- Desain yang memperlakukan prompt sebagai objek lingkungan merupakan inovasi utama yang mengatasi batas struktural dalam pemrosesan dokumen panjang
- Pendekatan ini diposisikan sebagai kerangka penalaran umum yang mencapai keseimbangan antara performa, biaya, dan skalabilitas di berbagai model dan tugas
1 komentar
Pendapat Hacker News
Ini terlihat seperti konsep subagent
Maksudnya, memanggil LLM lain untuk membaca file dan mengekstrak informasi yang dibutuhkan agar konteks utama tidak menjadi terlalu rumit
Idenya bagus, tetapi bukan sesuatu yang sepenuhnya baru
Saat ini saya sedang bereksperimen di proyek Scope agar subagent yang dapat diamati memecah pekerjaan secara rekursif
Namun, saya tidak tahu bagaimana meningkatkan evaluasi tahap perencanaan ini
Saya mencatat heuristik dalam file Markdown, tetapi strukturnya longgar sehingga sulit diukur
Jika ada yang mengetahui literatur atau proyek terkait, akan sangat membantu
RLM bukan agen dan bukan ringkasan
Menggunakan beberapa pemanggilan LM dalam satu sistem bukanlah konsep baru, dan itulah yang dilakukan sebagian besar agentic scaffold
Contoh yang paling mirip adalah ROMA agent, yang memecah masalah dan menyelesaikannya dengan beberapa sub-agent
Selain itu, asisten kode seperti Cursor atau Claude Code juga merangkum atau memangkas ketika konteks menjadi semakin panjang
Pendekatan seperti ini biasanya memecah berdasarkan unit tugas, tetapi RLM menekankan dekomposisi berbasis konteks, dan pilihannya dianggap harus diputuskan sendiri oleh LM
Wawasan intinya adalah prompt panjang sebaiknya tidak langsung dimasukkan ke jaringan saraf (Transformer), melainkan diperlakukan sebagai bagian dari lingkungan yang dapat diinteraksikan secara simbolis oleh LLM
Namun saya penasaran, secara mendasar apa bedanya dengan RAG
Jika melihat gambar 4, perbedaannya tampak pada fakta bahwa mekanisme retrieval diimplementasikan langsung oleh LLM, bukan oleh manusia
1️⃣ RAG lebih dekat ke workflow, sedangkan ini lebih agentic
2️⃣ Memiliki struktur rekursif
Dalam workflow, manusialah yang menyusun alur langkah demi langkah, tetapi dalam pendekatan agentic, agen sendiri yang menentukan apa yang perlu dicari, berapa kali harus memanggil, dan kapan harus menjawab
Misalnya seperti Claude Code atau Codex yang menjelajahi codebase, membaca file, dan menjalankan ripgrep
Upaya rekursif seperti ini pernah ada sebelumnya (misalnya babyagi, sekitar tahun 2023), tetapi saat itu kemampuan model belum cukup sehingga membutuhkan banyak glue code
Sekarang model sudah cukup kuat sehingga struktur seperti ini benar-benar bisa berjalan
Seperti lelucon “T̶u̶r̶t̶l̶e̶s̶ LLMs all the way down”, ini menyiratkan struktur di mana LLM terus-menerus memanggil LLM lain tanpa akhir
Ada versi tulisan yang lebih mudah dibaca: tulisan blog alexzhang13
Harapan saya untuk tahun 2026 adalah Anthropic atau OpenAI mengungkap kepada pembuat plugin CLI “bagaimana compaction dijalankan”
Teknologi ini bisa saja menggantikan fitur bawaan di Claude Code, tetapi saat ini hook atau fungsinya yang memadai belum diekspos
Saya pernah melihat source Gemini, dan strukturnya berupa prompt sederhana yang merangkum semuanya saat context window penuh
Ini terlihat mirip dengan makalah ini: arXiv:2510.14826