Agen yang Berjalan Jangka Panjang - Apa yang Berubah Saat Agen Berjalan Selama Berhari-hari

(addyo.substack.com)

26 poin oleh GN⁺ 2026-05-04 | 2 komentar | Bagikan ke WhatsApp

Muncul paradigma baru di mana agen AI berjalan secara otonom selama beberapa hari hingga beberapa minggu, bukan dalam satu sesi chat saja, melintasi banyak jendela konteks dan sandbox, pulih dari kegagalan, dan melanjutkan dari titik jeda
Agen konvensional terbentur batasan struktural sesi tunggal seperti habisnya jendela konteks, terlalu percaya pada evaluasi diri, dan mengembalikan perubahan lama yang sebelumnya sudah diperbaiki
Perusahaan-perusahaan utama seperti Anthropic, Google, dan Cursor mulai berkumpul pada arsitektur pemisahan loop model, sandbox eksekusi, dan log sesi
Tantangan inti agen yang berjalan jangka panjang adalah manajemen status persisten, verifikasi diri, dan kompresi konteks, dan artikel ini menyajikan lima pola desain untuk mengatasinya
Area investasi utama yang benar-benar membedakan produktivitas bukan modelnya sendiri, melainkan lapisan status, sesi, dan handoff terstruktur yang membungkus model

Tiga makna dari "berjalan jangka panjang"

Long-horizon reasoning: kemampuan merencanakan dan mengeksekusi lintas banyak tahap yang saling bergantung, yang terutama merupakan persoalan kualitas model. Menurut metrik time horizon dari METR, waktu tugas yang bisa diselesaikan model frontier dengan tingkat kepercayaan 50% telah meningkat sekitar dua kali lipat setiap 7 bulan sejak 2019, dan jika tren ini bertahan, tugas berdurasi harian akan bisa diselesaikan pada 2028, dan tugas berdurasi tahunan pada 2034
Long-running execution: struktur di mana proses agen berjalan selama beberapa jam hingga beberapa hari, dan model bisa dipanggil ribuan kali; ini terutama merupakan persoalan desain harness
Persistent agency: bentuk di mana agen mempertahankan identitasnya melampaui satu tugas, mengumpulkan memori, dan mempelajari preferensi pengguna. Memory Bank milik Google adalah contoh representatif
Dalam produksi nyata, ketiganya biasanya digabungkan, tetapi masalah rekayasa dan solusinya berbeda untuk masing-masing

Mengapa agen yang berjalan jangka panjang penting

Agen yang berjalan 10 menit hanya berada pada tingkat jawab pertanyaan atau perbaikan bug kecil, tetapi agen yang berjalan 10 jam dapat mengembangkan fitur lengkap, menuntaskan migrasi yang tertunda selama 6 kuartal, atau melakukan riset setingkat analis junior
Dalam pengumuman Claude Sonnet dari Anthropic, mereka mengungkap contoh pengodean otonom lebih dari 30 jam berdasarkan pengujian internal, dengan satu eksekusi menghasilkan aplikasi bergaya Slack berukuran 11.000 baris
Dalam Project Vend, sebuah instance Claude menjalankan bisnis mesin penjual otomatis kantor nyata selama sebulan, menangani pengelolaan inventaris, penetapan harga, dan komunikasi dengan pemasok. Tahap pertama menghasilkan sejumlah kegagalan yang bermakna, dan tahap kedua menunjukkan peningkatan besar
- Poin utamanya bukan profitabilitas, tetapi mengamati masalah konsistensi yang muncul ketika agen mempertahankan identitas dalam skala mingguan, bukan per giliran

Tiga tembok yang dihadapi semua agen yang berjalan jangka panjang

Konteks yang terbatas: bahkan jendela 1M token pada akhirnya habis, dan sebelum jendela itu penuh pun sudah muncul context rot (penurunan performa model secara bertahap). Eksekusi 24 jam tidak cocok dengan roadmap jendela konteks mana pun saat ini
Tidak adanya status persisten: sesi baru dimulai dari kertas kosong. Anthropic mengibaratkannya seperti "seorang engineer yang datang untuk shift baru tanpa tahu sama sekali apa yang terjadi di shift sebelumnya"
Tidak adanya verifikasi diri: ketika model menilai pekerjaannya sendiri, bias positif muncul secara konsisten. Untuk pertanyaan "Apakah ini sudah selesai?", model lebih sering menjawab "ya" daripada kenyataannya, dan tanpa sinyal verifikasi terpisah, ia bisa menyerahkan hasil dengan keyakinan penuh padahal baru 30% selesai

Loop Ralph: implementasi sederhana agen jangka panjang untuk praktisi

Loop Ralph (teknik Ralph Wiggum) adalah pola agen jangka panjang untuk praktisi yang dipopulerkan Geoffrey Huntley dan Ryan Carson, dengan implementasi referensi berupa satu skrip bash
Urutan kerjanya: pilih tugas yang belum selesai (prd.json) → susun prompt dari tugas, konteks, dan memo → panggil agen → jalankan tes → tambahkan hasil ke progress.txt → perbarui daftar tugas → ulangi
Prinsip intinya: agen itu sendiri amnesia, tetapi filesystem mempertahankan memori. prd.json berperan sebagai rencana, progress.txt sebagai catatan lab, dan AGENTS.md sebagai buku aturan yang terus diperbarui
Compound Product milik Ryan Carson merangkai beberapa loop dalam bentuk loop analisis (membaca laporan harian) → loop perencanaan (membuat PRD) → loop eksekusi (menulis kode), yang merupakan versi open source dari struktur tiga lapis planner-generator-evaluator yang juga dicapai Anthropic secara independen
Hanya dengan skrip bash dan file JSON, agen jangka panjang yang bekerja semalaman bisa dibangun. Yang diproduktisasi Google dan Anthropic adalah upaya membuat pola ini dapat dipulihkan, aman, dan dapat diamati

Anthropic: dari harness ke pemisahan Brain/Hands/Session

Pendekatan pertama (struktur harness): harness 2-agen untuk pengembangan full-stack otonom. Agen Initializer menyiapkan lingkungan awal proyek, memperluas prompt menjadi feature-list.json, dan menulis skrip boot (init.sh). Agen Coding bangun berulang kali untuk mengerjakan fitur per unit, menjalankan tes, menulis claude-progress.txt, dan melakukan commit
- Aturan test ratchet: "Menghapus atau memodifikasi tes tidak diperbolehkan" — mencegah kegagalan umum di mana agen menghapus tes yang gagal agar lolos
- Dalam versi perluasan InfoQ, ini berkembang menjadi struktur tiga lapis planner, generator, evaluator. Alasan pemisahan generasi dan evaluasi penting: model terlalu murah hati ketika menilai pekerjaannya sendiri
Pendekatan kedua (pemisahan Brain/Hands/Session): arsitektur Claude Managed Agents (rilis awal April 2026)
- Brain: model dan loop harness
- Hands: lingkungan eksekusi sementara yang disandbox tempat tool benar-benar dijalankan
- Session: log event append-only dari semua pemikiran, pemanggilan tool, dan observasi
Framing inti Anthropic: "Setiap komponen dalam harness mengenkode asumsi tentang hal-hal yang tidak dapat dilakukan model sendiri"; jika digabung, seluruh sistem harus diubah ketika asumsi itu usang, tetapi jika dipisah, harness menjadi stateless dan sandbox bisa diperlakukan sebagai cattle (komoditas habis pakai)
Kontainer baru dapat memanggil wake(sessionId) dan merekonstruksi status dari log. time-to-first-token turun sekitar 60% pada p50 dan lebih dari 90% pada p95 — hasil dari kemampuan memulai penalaran sebelum sandbox siap
Konsep session-event-log adalah bagian yang paling diremehkan. Inilah inti yang membuat agen jangka panjang bisa dipulihkan. Tanpanya, kegagalan kontainer berarti kegagalan sesi
Stack untuk komputasi ilmiah: CLAUDE.md (rencana hidup yang dipelajari dan diedit agen), CHANGELOG.md (catatan lab portabel), tmux + SLURM + git (lapisan eksekusi dan koordinasi), Loop Ralph (verifikasi ulang saat agen mengklaim selesai)
- Contoh representatif: solver Boltzmann yang dibangun Claude Opus selama beberapa hari mencapai galat kurang dari 1% dibanding implementasi referensi CLASS. Pekerjaan berbulan-bulan hingga bertahun-tahun bagi peneliti dipadatkan

Cursor: struktur Planner, Worker, Judge

Ada tiga iterasi desain dalam perluasan pengodean otonom jangka panjang Cursor
- Pertama (koordinasi datar): agen-agen setara menulis ke file bersama dengan lock → muncul bottleneck, dan agen berubah menjadi terlalu menghindari risiko sehingga terjadi churning (berputar-putar tanpa commit)
- Kedua (optimistic concurrency control): bottleneck teratasi tetapi masalah koordinasi belum selesai
- Ketiga (produksi saat ini): Planner (menjelajahi codebase dan membuat tugas, dapat me-spawn sub-planner secara rekursif), Worker (eksekusi terfokus, tugas independen tanpa koordinasi satu sama lain), Judge (menentukan penyelesaian iterasi dan memutuskan restart)
Temuan kuncinya: "Bagian yang mengejutkan dari perilaku sistem ternyata sangat ditentukan oleh prompt, lebih daripada harness atau model"
Pencocokan model-peran juga merupakan bagian dari permukaan desain: model GPT lebih unggul daripada Opus dalam pekerjaan otonom berdurasi panjang. Opus cenderung berhenti terlalu cepat dan memilih jalan pintas. Tugas yang sama, peran berbeda, model berbeda
Composer 2 (model coding frontier milik mereka sendiri) dan background cloud agent: pekerjaan panjang berjalan di infrastruktur cloud Anysphere, bukan lokal. Refactor 8 jam dan migrasi seluruh codebase tetap berjalan meski laptop ditutup
- Dimulai secara lokal lalu dipindah ke cloud jika diperkirakan memakan waktu lebih dari 30 menit, dan setelah itu bisa dihubungkan kembali dari mobile
- Setiap agen berjalan dalam git worktree yang terisolasi, lalu digabung melalui PR
Struktur akhirnya mirip dengan Anthropic: pemisahan peran, persistensi sesi, judge berada di samping worker, dan pekerjaan panjang dikoordinasikan berbasis git di sandbox cloud

Google: agen jangka panjang di Agent Platform

Di Cloud Next '26, Vertex AI diintegrasikan menjadi Gemini Enterprise Agent Platform, mengubah agen jangka panjang menjadi produk resmi dengan SLA yang dinyatakan
Agent Runtime: mendukung "eksekusi otonom selama beberapa hari", cold start sub-detik, dan provisioning sandbox on-demand. Contoh use case: rangkaian prospek penjualan yang memakan waktu seminggu
Agent Sessions: mempersistenkan riwayat percakapan dan event. ID sesi kustom dapat dipetakan ke rekaman CRM atau database untuk menyimpan status agen bersama status bisnis
Agent Memory Bank: lapisan memori jangka panjang yang sudah GA (rilis umum) per Next '26. Mengkurasi memori dari sesi, membatasi cakupan berdasarkan ID pengguna, dan menyediakan API pencarian. Dalam kasus Payhawk, agen berbasis Memory Bank memangkas waktu pengajuan pengeluaran lebih dari 50%
Agent Sandbox (eksekusi kode yang diperkuat), Agent-to-Agent Orchestration, Agent Registry, Agent Identity, Agent Gateway, Agent Observability, Agent Simulation, dan lain-lain mencakup hampir semua concern yang dibutuhkan untuk operasi produksi. Termasuk ID terenkripsi dan audit log yang dibutuhkan enterprise
Secara arsitektural, ini adalah produk skala platform dari pemisahan brain/hands/session ala Anthropic, dibundel bersama ADK (development kit code-first) dan Agent Studio (tool visual). Sesuatu yang tiga tahun lalu harus dibangun sendiri kini menjadi soal memilih "versi pemisahan brain/hands/session mana yang ingin dipinjam"

Lima pola untuk agen produksi yang berjalan jangka panjang

Checkpoint-and-resume: kegagalan multi-hari yang paling umum adalah hilangnya konteks. Jika setelah memproses 200 dokumen error terjadi di dokumen ke-201, tanpa checkpoint semuanya harus dimulai dari awal. Perlakukan agen seperti proses server jangka panjang: simpan status menengah ke disk, lakukan checkpoint setiap N unit kerja, dan pulihkan saat gagal. Kuncinya adalah menentukan granularitas checkpoint yang tepat (bukan setiap langkah, tetapi juga bukan hanya di akhir)
Delegated approval (human-in-the-loop): implementasi lama menserialisasi status ke JSON → webhook → menunggu respons, tetapi status menjadi stale dan notifikasi sering tenggelam. Pada runtime jangka panjang, agen bisa pause sambil mempertahankan seluruh rantai penalaran, memori kerja, riwayat tool, dan aksi tertunda. Selama waktu tinjauan manusia, konsumsi komputasi nol, lalu lanjut dengan latensi sub-detik. Mission Control milik Google berperan sebagai inbox untuk ini
Memory-layered context: agen yang berjalan 7 hari membutuhkan lebih dari sekadar status sesi. Memory Bank (memori terkurasi jangka panjang) + Memory Profiles (lookup latensi rendah). Mode kegagalan produksi adalah memory drift — agen mempelajari jalan pintas prosedural dari interaksi tak terstruktur lalu menerapkannya secara luas. Karena itu, memori perlu ditata kelola seperti microservice. Agent Identity (izin baca/tulis), Agent Registry (pelacakan versi agen), Agent Gateway (penegakan kebijakan)
Ambient processing: agen yang bereaksi terhadap event dari stream Pub/Sub atau tabel BigQuery tanpa bercakap dengan manusia (moderasi konten, deteksi anomali, klasifikasi inbox). Jika kebijakan tidak di-hardcode ke agen dan justru didefinisikan di Gateway, perubahan kebijakan bisa diterapkan ke ratusan agen tanpa redeploy
Fleet orchestration: dalam sistem nyata, biasanya bukan satu agen melainkan koordinator yang mendelegasikan subtugas ke para spesialis (Lead Researcher Agent, Scoring Agent, Outreach Agent). Setiap spesialis memiliki Identity unik sendiri (Outreach Agent tidak boleh mengakses data finansial untuk Scoring), kebijakan unik, dan entri Registry unik. ADK menanganinya secara deklaratif dengan workflow berbasis graf
Pola-pola ini bisa digabungkan. Contoh sistem compliance: checkpointing untuk pemrosesan dokumen + approval terdelegasi untuk review gate + memory layering untuk pengetahuan lintas sesi + fleet orchestration untuk koordinasi spesialis

Cara membangunnya di dunia nyata

Developer yang ingin pekerjaan coding jangka panjang di repo sendiri: gunakan Claude Code, Antigravity, Cursor, Codex, dan lain-lain. Kelola AGENTS.md seperti checklist pilot (singkat, hanya berisi hal-hal yang didapat dari pengalaman gagal nyata). Tambahkan hook typecheck dan lint, buat file rencana sebelum mulai, dan saat agen mengklaim selesai, verifikasi ulang dengan Loop Ralph. Untuk pekerjaan multi-jam atau semalaman, jalankan di worktree agar tetap lanjut meski laptop ditutup, dan lakukan commit per unit kerja yang bermakna. Ini jalur dengan leverage tertinggi bagi kebanyakan orang
Membangun produk agen terhosting: jangan bangun runtime sendiri; pilih opsi managed. Tiga opsi praktis saat ini: Google Agent Platform (Agent Engine + Memory Bank + Sessions), Claude Managed Agents, atau self-hosting di atas ADK, Claude Agent SDK, atau Codex SDK. Opsi managed sudah menyediakan pemisahan brain/hands/session, observability, identity, dan audit trail secara default. Self-hosting memberi kontrol dan memungkinkan penggunaan model khusus
Pekerjaan otonom dan operasional (monitoring, riset, operasi): membutuhkan persistensi bergaya Memory Bank. ADK + Memory Bank + Cloud Run + Cloud Scheduler adalah stack paling rapi untuk "menjalankan agen tiap N jam, mengakumulasi status, dan memberi alert saat ambang tercapai"

Praktik kunci yang penting di jalur mana pun

Tuliskan kondisi selesai sebelum agen mulai: leverage tertinggi dalam eksekusi jangka panjang. Tulis kriteria selesai yang eksplisit dan bisa diuji di file eksternal → mencegah agen mendefinisikan ulang "selesai" saat sedang berjalan
Pisahkan evaluator dan generator: self-grading adalah mode kegagalan utama. Pipeline planner/worker/judge atau pasangan generator/evaluator bukan sekadar gaya, melainkan pola arsitektur nyata. Bahkan dengan model yang sama, peran dan prompt harus dipisahkan
Berinvestasilah pada log sesi, bukan prompt: event log append-only membuat agen bisa dipulihkan, di-debug, dan diaudit. Jika aktivitas agen selama 24 jam terakhir tidak bisa direkonstruksi dari storage persisten, itu hanyalah shell script jangka panjang yang memanggil LLM
Perlakukan kompresi dan reset konteks sebagai warga kelas satu: Anthropic menemukan bahwa dalam pekerjaan yang sangat panjang, kompresi berbasis ringkasan saja tidak cukup; harness perlu membongkar sesi sepenuhnya lalu membangunnya kembali dari file handoff terstruktur. Pada dasarnya ini sama dengan cara melakukan onboarding engineer baru

Batas praktis saat ini

Biaya: menjalankan model frontier selama 24 jam memakan biaya besar. Tanpa anggaran, circuit breaker, dan hard cap pengeluaran tool, anggaran API seminggu bisa habis dalam setengah sore
Keamanan: agen yang berjalan jangka panjang dengan API key, akses cloud, dan izin menjalankan perintah shell memiliki permukaan serangan yang jauh lebih luas daripada sesi chat. Karena itu pola pemisahan brain/hands penting — kode yang dihasilkan model harus tetap berjalan di sandbox yang tidak memiliki akses ke kredensial
Alignment drift: agen bisa melenceng saat melewati banyak jendela konteks. Tujuan awal diringkas, diringkas ulang, lalu fidelitasnya menurun. Hook dan judge ada untuk melawan ini, dan ini adalah penyebab paling umum dari "agen melakukan pekerjaan yang tidak diminta"
Verifikasi: mengaudit aktivitas otonom selama 24 jam tetap merupakan persoalan waktu manusia yang nyata. Observability dan output terstruktur (PR, commit, briefing, eksekusi tes) adalah cara untuk membuatnya tractable
Peran manusia: mendefinisikan tugas dengan cukup presisi agar agen bisa menjalankannya selama sehari penuh lebih sulit daripada mengerjakannya sendiri. Keahlian yang nilainya naik bukan menulis kode, melainkan menulis spesifikasi yang tahan saat bersentuhan dengan pelaksana otonom

Ke mana arahnya

Google, Anthropic, dan Cursor sedang berkumpul pada struktur yang sama: pemisahan loop model, sandbox eksekusi, dan log sesi, pemisahan perencanaan, generasi, dan evaluasi, kompresi, hook, dan reset konteks bawaan, serta memori yang diekspos sebagai layanan managed
Perbedaannya bersifat permukaan: Google Agent Platform adalah stack enterprise dengan identity dan audit trail bawaan, Claude Managed Agents adalah "versi harness Anthropic yang dihosting", dan background agent Cursor adalah "coding jangka panjang yang dipindahkan dari IDE ke cloud"
Masalah yang lebih sulit dalam 1 tahun ke depan bukan lagi lapisan individual, tetapi koordinasi di atasnya: mengoperasikan banyak agen jangka panjang pada codebase bersama, agen yang membaca trace-nya sendiri lalu mem-patch harness miliknya, dan harness yang merakit tool serta konteks secara JIT (just-in-time) sesuai tugas
Model tetap penting, tetapi kesenjangan antara jendela chat dan agen yang bisa berjalan semalaman sebagian besar terletak pada status, sesi, dan handoff terstruktur, dan di situlah waktu belajar layak diinvestasikan

2 komentar

xguru 2026-05-04

Codex CLI menambahkan fitur /goal
Karena tulisan ini dibuat beberapa hari lalu, setelah melihat berita di atas rasanya bagian Codex juga perlu sedikit dibahas haha

jjpark78 2026-05-04

Saya mulai memakai hermes untuk menyelesaikan masalah ini, dan sepertinya lumayan juga hehe