Code as Agent Harness — Survei 102 Halaman yang Memandang Kode sebagai Basis Eksekusi Agen

(code-as-harness.github.io)

4 poin oleh johnonlee 4 jam lalu | Belum ada komentar. | Bagikan ke WhatsApp

Kolaborasi UIUC × Meta × Stanford. Ini adalah makalah survei yang naik ke arXiv pada bulan Mei, dan sudut pandangnya cukup menarik.

Klaim utama

"Kode bukan lagi hasil keluaran yang dihasilkan LLM. Kode adalah operational substrate (basis eksekusi) tempat agen bernalar, bertindak, menyimpan status, dan memverifikasi umpan balik."

Dengan kata lain, kode bukan sekadar file .py, melainkan dunia tempat agen hidup itu sendiri. Perspektif ini disebut code as agent harness.

Struktur 3 lapisan

Makalah ini menganalisis sistem agen dengan membaginya ke dalam 3 layer:

① Harness Interface — cara kode menghubungkan agen dengan lingkungan

Menjalankan dan memverifikasi penalaran dengan mengeksternalisasikannya ke dalam kode, seperti pada Program-of-Thoughts
Program yang dihasilkan bekerja sebagai kebijakan untuk kontrol GUI/robot
Codebase, trace, dan simulator merepresentasikan lingkungan itu sendiri

② Harness Mechanisms — sistem kontrol yang mempertahankan eksekusi jangka panjang

Planning: berkembang melampaui decomposition sederhana menuju perencanaan berkelanjutan berbasis filesystem seperti file PLAN.md. Meta-Harness menjadikan desain harness itu sendiri sebagai search space
Memory: dianalisis dengan membagi menjadi working/semantic/experiential/long-term/multi-agent + context compaction. Intinya, "memori bukan satu vector DB tunggal, melainkan lapisan manajemen status yang terintegrasi"
PEV Loop: siklus Plan → Execute → Verify didefinisikan ulang sebagai cybernetic governor. Eksekusi memakai model izin 3 tahap: read-only → sandbox-edit → full-access(HITL)
AHE: lapisan meta yang mengukur dan mengoptimalkan harness itu sendiri

③ Scaling the Harness — cara multi-agent berkolaborasi di atas medium bersama berupa kode

Temuan menarik: "kompleksitas topologi adalah pajak yang diciptakan oleh ketidakmatangan representasi status bersama" — sistem dengan desain status yang baik dapat berjalan baik dengan struktur sederhana, sementara sistem yang bergantung pada status implisit menutup kekurangan itu dengan topologi yang kompleks

Poin-poin yang mengesankan

Context Compaction + State Offloading: jangan masukkan semuanya ke context window; simpan hanya ringkasan yang dibutuhkan untuk pengambilan keputusan di active context, dan offload seluruh data lewat protokol bergaya MCP — ini benar-benar tip praktis yang sangat berguna
Verifikasi sebagai sensor deterministik: umpan balik deterministik seperti linter, type checker, test, dan fuzzer adalah sinyal kontrol yang lebih dapat dipercaya daripada critique dari LLM
Penyebab kegagalan ada pada harness, bukan model: "sebagian besar kegagalan agen berasal dari konteks repositori yang kurang, antarmuka tool yang rapuh, verifier yang lemah, biaya token yang berlebihan, dan kebijakan retry yang keliru"

Open Problems

Dari 7 masalah terbuka yang ditinggalkan makalah ini:

Evaluasi di luar keberhasilan akhir: trace perantara, upaya pemulihan, dan pemeriksaan keselamatan juga harus menjadi metrik kelas satu
Perbaikan harness tanpa regresi: cara belajar dari kegagalan tanpa merusak perilaku yang sudah ada
Status bersama transaksional antar multi-agent: penyelesaian konflik saat beberapa agen mengubah kode secara bersamaan

Referensi

Makalah: https://arxiv.org/abs/2605.18747
Situs ringkasan yang rapi: https://code-as-harness.github.io/code-as-harness-webpage/
Kumpulan makalah terkait: https://github.com/YennNing/Awesome-Code-as-Agent-Harness-Papers