4 poin oleh johnonlee 4 jam lalu | Belum ada komentar. | Bagikan ke WhatsApp

Kolaborasi UIUC × Meta × Stanford. Ini adalah makalah survei yang naik ke arXiv pada bulan Mei, dan sudut pandangnya cukup menarik.

Klaim utama

"Kode bukan lagi hasil keluaran yang dihasilkan LLM. Kode adalah operational substrate (basis eksekusi) tempat agen bernalar, bertindak, menyimpan status, dan memverifikasi umpan balik."

Dengan kata lain, kode bukan sekadar file .py, melainkan dunia tempat agen hidup itu sendiri. Perspektif ini disebut code as agent harness.

Struktur 3 lapisan

Makalah ini menganalisis sistem agen dengan membaginya ke dalam 3 layer:

① Harness Interface — cara kode menghubungkan agen dengan lingkungan

  • Menjalankan dan memverifikasi penalaran dengan mengeksternalisasikannya ke dalam kode, seperti pada Program-of-Thoughts
  • Program yang dihasilkan bekerja sebagai kebijakan untuk kontrol GUI/robot
  • Codebase, trace, dan simulator merepresentasikan lingkungan itu sendiri

② Harness Mechanisms — sistem kontrol yang mempertahankan eksekusi jangka panjang

  • Planning: berkembang melampaui decomposition sederhana menuju perencanaan berkelanjutan berbasis filesystem seperti file PLAN.md. Meta-Harness menjadikan desain harness itu sendiri sebagai search space
  • Memory: dianalisis dengan membagi menjadi working/semantic/experiential/long-term/multi-agent + context compaction. Intinya, "memori bukan satu vector DB tunggal, melainkan lapisan manajemen status yang terintegrasi"
  • PEV Loop: siklus Plan → Execute → Verify didefinisikan ulang sebagai cybernetic governor. Eksekusi memakai model izin 3 tahap: read-only → sandbox-edit → full-access(HITL)
  • AHE: lapisan meta yang mengukur dan mengoptimalkan harness itu sendiri

③ Scaling the Harness — cara multi-agent berkolaborasi di atas medium bersama berupa kode

  • Temuan menarik: "kompleksitas topologi adalah pajak yang diciptakan oleh ketidakmatangan representasi status bersama" — sistem dengan desain status yang baik dapat berjalan baik dengan struktur sederhana, sementara sistem yang bergantung pada status implisit menutup kekurangan itu dengan topologi yang kompleks

Poin-poin yang mengesankan

  • Context Compaction + State Offloading: jangan masukkan semuanya ke context window; simpan hanya ringkasan yang dibutuhkan untuk pengambilan keputusan di active context, dan offload seluruh data lewat protokol bergaya MCP — ini benar-benar tip praktis yang sangat berguna
  • Verifikasi sebagai sensor deterministik: umpan balik deterministik seperti linter, type checker, test, dan fuzzer adalah sinyal kontrol yang lebih dapat dipercaya daripada critique dari LLM
  • Penyebab kegagalan ada pada harness, bukan model: "sebagian besar kegagalan agen berasal dari konteks repositori yang kurang, antarmuka tool yang rapuh, verifier yang lemah, biaya token yang berlebihan, dan kebijakan retry yang keliru"

Open Problems

Dari 7 masalah terbuka yang ditinggalkan makalah ini:

  • Evaluasi di luar keberhasilan akhir: trace perantara, upaya pemulihan, dan pemeriksaan keselamatan juga harus menjadi metrik kelas satu
  • Perbaikan harness tanpa regresi: cara belajar dari kegagalan tanpa merusak perilaku yang sudah ada
  • Status bersama transaksional antar multi-agent: penyelesaian konflik saat beberapa agen mengubah kode secara bersamaan

Referensi

Belum ada komentar.

Belum ada komentar.