Model Bahasa Rekursif (Recursive Language Models)

(arxiv.org)

2 poin oleh GN⁺ 2026-01-05 | 1 komentar | Bagikan ke WhatsApp

Large language model (LLM) kini diusulkan menggunakan strategi penalaran baru RLM (Recursive Language Model) agar dapat menangani prompt masukan yang sangat panjang
RLM memperlakukan prompt panjang sebagai bagian dari lingkungan eksternal, sehingga model dapat menjelajahinya, memecahnya, dan memanggilnya secara rekursif lewat pemrograman
Pendekatan ini melampaui batas context window yang ada dan dapat memproses input hingga puluhan juta token, dengan kualitas yang jauh lebih baik dibanding LLM konvensional
Hasil eksperimen menunjukkan bahwa RLM berbasis GPT-5 dan Qwen3-Coder memberikan peningkatan performa dua digit pada berbagai tugas dokumen panjang, dengan biaya yang serupa atau lebih rendah
Metode ini dinilai sebagai pendekatan umum yang dapat secara signifikan memperluas kemampuan penalaran LLM dengan mengatasi batas pemrosesan konteks panjang

Ikhtisar RLM

Recursive Language Model (RLM) dirancang agar LLM tidak langsung memasukkan input panjang ke jaringan saraf, melainkan memperlakukannya sebagai variabel dalam lingkungan eksternal untuk berinteraksi
- Prompt input P dimuat sebagai variabel dalam lingkungan Python REPL, lalu LLM menelusuri, memecah, dan memanggilnya secara rekursif melalui kode
- LLM mengenali status lingkungan REPL (misalnya panjang string), mengamati efek samping dari eksekusi kode, lalu menyelesaikan masalah secara bertahap
Struktur ini mengatasi masalah hilangnya detail pada pendekatan compaction konteks atau berbasis ringkasan yang sudah ada
RLM diajukan sebagai paradigma penalaran umum yang dapat memperluas panjang input maupun output

Keterbatasan pendekatan sebelumnya

LLM konvensional mengalami fenomena context rot, yakni penurunan performa tajam pada input panjang akibat batas context window
Teknik compaction konteks mengulang proses peringkasan setelah melewati panjang tertentu, tetapi tidak cocok untuk tugas yang memerlukan akses ke informasi detail
RLM menangani prompt sebagai objek eksternal sehingga ukuran input dapat diperluas melampaui batas model

Pengaturan eksperimen

Model evaluasi: GPT-5 (OpenAI, 2025) dan Qwen3-Coder-480B-A35B (Team, 2025)
Pembanding:
- pemanggilan langsung LLM dasar
- summary agent
- agen berbasis pencarian CodeAct + BM25
- RLM (dengan lingkungan REPL) dan RLM (REPL, tanpa pemanggilan rekursif)
Dalam eksperimen GPT-5, GPT-5-mini digunakan untuk pemanggilan rekursif dan GPT-5 sebagai model root guna menyeimbangkan performa dan biaya

Tugas evaluasi

S-NIAH: masalah tunggal ‘needle-in-a-haystack’, dengan biaya pemrosesan tetap terlepas dari panjang input
BrowseComp-Plus: tugas tanya jawab multi-hop lintas banyak dokumen, dengan jawaban tersebar di antara 1000 dokumen
OOLONG: tugas penalaran dokumen panjang yang mengharuskan hampir seluruh item input ditransformasikan dan diintegrasikan secara semantik, dengan biaya pemrosesan yang meningkat linear terhadap panjang input
OOLONG-Pairs: varian OOLONG yang membutuhkan penggabungan informasi berpasangan, dengan biaya pemrosesan yang berbanding kuadrat terhadap panjang input
LongBench-v2 CodeQA: tugas pilihan ganda yang menuntut pemahaman repositori kode dan masih sulit bahkan bagi model terbaru

Hasil utama

RLM hampir tidak mengalami penurunan performa pada konteks panjang dibanding GPT-5
- GPT-5 mengalami penurunan tajam saat panjang input dan kompleksitas tugas meningkat
- RLM dapat secara efektif memproses input yang melampaui batas 272K token (hingga 10M+ token)
Pada semua tugas dokumen panjang, RLM menunjukkan peningkatan performa dua digit dibanding metode lain
Efisiensi biaya juga tetap terjaga, dengan biaya per kueri yang serupa atau lebih rendah daripada pendekatan sebelumnya

Analisis kompleksitas tugas dokumen panjang

Context window efektif LLM bisa menjadi lebih pendek daripada batas fisiknya, tergantung pada kompleksitas tugas
- Masalah NIAH yang sederhana masih dapat diselesaikan pada 1M+ token
- Tugas kompleks seperti keluarga OOLONG mengalami penurunan performa bahkan pada panjang yang jauh lebih pendek
Karena itu, kepadatan informasi tugas dan korelasinya dengan panjang input perlu dipertimbangkan bersama

Kesimpulan

RLM memperluas kemampuan penalaran LLM secara rekursif, sehingga dapat menangani input superpanjang yang tidak dapat diproses model sebelumnya
Desain yang memperlakukan prompt sebagai objek lingkungan merupakan inovasi utama yang mengatasi batas struktural dalam pemrosesan dokumen panjang
Pendekatan ini diposisikan sebagai kerangka penalaran umum yang mencapai keseimbangan antara performa, biaya, dan skalabilitas di berbagai model dan tugas

1 komentar

GN⁺ 2026-01-05

Pendapat Hacker News

Ini terlihat seperti konsep subagent
Maksudnya, memanggil LLM lain untuk membaca file dan mengekstrak informasi yang dibutuhkan agar konteks utama tidak menjadi terlalu rumit
Idenya bagus, tetapi bukan sesuatu yang sepenuhnya baru
- Saya melihatnya bukan sebagai subagent yang diantrpomorfisasi seperti manusia, melainkan sebagai sarana manajemen konteks
  Saat ini saya sedang bereksperimen di proyek Scope agar subagent yang dapat diamati memecah pekerjaan secara rekursif
  Namun, saya tidak tahu bagaimana meningkatkan evaluasi tahap perencanaan ini
  Saya mencatat heuristik dalam file Markdown, tetapi strukturnya longgar sehingga sulit diukur
  Jika ada yang mengetahui literatur atau proyek terkait, akan sangat membantu
- Makalahnya mengatakan seperti ini
  RLM bukan agen dan bukan ringkasan
  Menggunakan beberapa pemanggilan LM dalam satu sistem bukanlah konsep baru, dan itulah yang dilakukan sebagian besar agentic scaffold
  Contoh yang paling mirip adalah ROMA agent, yang memecah masalah dan menyelesaikannya dengan beberapa sub-agent
  Selain itu, asisten kode seperti Cursor atau Claude Code juga merangkum atau memangkas ketika konteks menjadi semakin panjang
  Pendekatan seperti ini biasanya memecah berdasarkan unit tugas, tetapi RLM menekankan dekomposisi berbasis konteks, dan pilihannya dianggap harus diputuskan sendiri oleh LM
- Jika hanya melihat judulnya, kesannya seluruh komputasinya differentiable dan dilatih sebagai satu model, tetapi pada kenyataannya tampak hanya sebatas memanggil model berulang kali
- Jika subagent tidak bisa memanggil subagent lain tanpa batas, maka itu tidak bisa disebut rekursif
- Tampaknya yang dimaksud adalah konsep sub-agent yang mengakses dan memanipulasi konteks yang sama (file system atau variabel REPL)
Wawasan intinya adalah prompt panjang sebaiknya tidak langsung dimasukkan ke jaringan saraf (Transformer), melainkan diperlakukan sebagai bagian dari lingkungan yang dapat diinteraksikan secara simbolis oleh LLM
Namun saya penasaran, secara mendasar apa bedanya dengan RAG
Jika melihat gambar 4, perbedaannya tampak pada fakta bahwa mekanisme retrieval diimplementasikan langsung oleh LLM, bukan oleh manusia
- Menurut saya ada dua perbedaan
  1️⃣ RAG lebih dekat ke workflow, sedangkan ini lebih agentic
  2️⃣ Memiliki struktur rekursif
  Dalam workflow, manusialah yang menyusun alur langkah demi langkah, tetapi dalam pendekatan agentic, agen sendiri yang menentukan apa yang perlu dicari, berapa kali harus memanggil, dan kapan harus menjawab
  Misalnya seperti Claude Code atau Codex yang menjelajahi codebase, membaca file, dan menjalankan ripgrep
  Upaya rekursif seperti ini pernah ada sebelumnya (misalnya babyagi, sekitar tahun 2023), tetapi saat itu kemampuan model belum cukup sehingga membutuhkan banyak glue code
  Sekarang model sudah cukup kuat sehingga struktur seperti ini benar-benar bisa berjalan
Seperti lelucon “T̶u̶r̶t̶l̶e̶s̶ LLMs all the way down”, ini menyiratkan struktur di mana LLM terus-menerus memanggil LLM lain tanpa akhir
- Ini seperti menerapkan “attention is all you need” secara berulang, dan pada akhirnya yang perlu kita kejar adalah presisi (precision)
Ada versi tulisan yang lebih mudah dibaca: tulisan blog alexzhang13
Harapan saya untuk tahun 2026 adalah Anthropic atau OpenAI mengungkap kepada pembuat plugin CLI “bagaimana compaction dijalankan”
Teknologi ini bisa saja menggantikan fitur bawaan di Claude Code, tetapi saat ini hook atau fungsinya yang memadai belum diekspos
- Jika Codex open source, bukankah kita bisa membacanya langsung?
  Saya pernah melihat source Gemini, dan strukturnya berupa prompt sederhana yang merangkum semuanya saat context window penuh
Ini terlihat mirip dengan makalah ini: arXiv:2510.14826

Model Bahasa Rekursif (Recursive Language Models)

Ikhtisar RLM

Keterbatasan pendekatan sebelumnya

Pengaturan eksperimen

Tugas evaluasi

Hasil utama

Analisis kompleksitas tugas dokumen panjang

Kesimpulan

Bacaan terkait

1 komentar

Pendapat Hacker News