Tingkat Otonomi Agen

(addyo.substack.com)

1 poin oleh GN⁺ 6 jam lalu | Belum ada komentar. | Bagikan ke WhatsApp

Rekayasa agentic semakin mendekati desain operasional daripada penulisan prompt, dan untuk tiap tugas perlu ditentukan bersama tingkat otonomi yang diizinkan serta metode verifikasi yang menopangnya
Model tangga tunggal berguna untuk mengekspresikan kepercayaan terhadap satu agen dalam bentuk angka, tetapi kemampuan menangani banyak agen sekaligus perlu dilihat dalam dua sumbu: agency dan orchestration
Model level 0~5 membentang dari Assist yang hanya memberi saran hingga Managed-by-exception orchestration di mana manusia hanya turun tangan dalam situasi pengecualian; makin tinggi levelnya, makin jelas tujuan, cakupan, bukti, wewenang, dan anggarannya
Dalam analisis Anthropic atas Claude Code, melalui data sekitar 400 ribu sesi dan sekitar 235 ribu pengguna, terlihat pola bahwa manusia menangani sekitar 70% keputusan perencanaan, sementara Claude menangani sekitar 80% eksekusi
Pemanfaatan agen yang matang bukan soal memamerkan otonomi tinggi, melainkan menerapkan calibrated autonomy sesuai risiko dan tingkat kemudahan rollback, serta mengelola bottleneck verifikasi

Rekayasa agentic bergerak dari penulisan prompt ke desain operasional

Pusat rekayasa agentic sedang bergeser dari penulisan prompt ke desain operasional
Software factory, tujuan, loop, sesi latar belakang, subagen, hook, sandbox, dan cara agen menyetujui agen lain kini tampil di garis depan
Claude Code dan Codex dibahas sebagai produk representatif yang menunjukkan perubahan ini
Engineer dapat memakai otonomi rendah untuk mengurangi risiko dan mempermudah rollback, sementara untuk aktivitas yang jelas atau refactoring codebase berskala besar dapat memakai otonomi lebih tinggi dan armada agen paralel
Pertanyaan intinya adalah tingkat otonomi seperti apa yang boleh diizinkan untuk tiap tugas, dan verifikasi seperti apa yang dapat mempertahankan level tersebut

Melihat otonomi lewat dua sumbu, bukan satu tangga tunggal

Tangga sumbu tunggal yang disebut dalam “Welcome to Gas Town” karya Steve Yegge berguna untuk mengekspresikan kepercayaan terhadap satu agen dalam bentuk angka
Pada awal 2026, bahkan ketika pekerjaan bergeser dari delegasi ke orkestrasi, sumbu tunggal masih berfungsi sebagai indikator pengganti kasar untuk mengukur risiko
Begitu banyak agen dapat dijalankan bersamaan, satu level saja sulit menjelaskan kemampuan multi-agen
Diskusi tentang otonomi sering mencampur dua pertanyaan yang berbeda
- Seberapa jauh satu agen bisa dilepas dari manusia
- Seberapa baik banyak agen bisa dikoordinasikan
Untuk memisahkannya, dibutuhkan dua sumbu
- agency: seberapa otonom satu agen dalam memberi usulan, menjalankan tugas terbatas, atau mencapai tujuan
- orchestration: seberapa baik koordinasi dilakukan, mulai dari satu thread hingga banyak pohon tugas dan pekerjaan berkelanjutan berbasis backlog, issue tracker, dan jadwal

Makna agency dan orchestration

Pada level rendah sumbu agency, agen mengusulkan tindakan kandidat lalu menunggu keputusan manusia
Pada level menengah, agen menjalankan tugas tertentu dengan cakupan terbatas, dan terus melaporkan apa yang telah dilakukan beserta buktinya agar manusia bisa menyesuaikan arah
Pada agency tinggi, agen dapat bereksperimen, belajar, menguji, menangani pemblokir, bertanya, dan mencoba pendekatan lain untuk mencapai tujuan, lalu mengembalikan semuanya sebagai bukti
Level rendah sumbu orchestration berarti satu agen dan satu thread
Pada level menengah, banyak agen menjalankan tujuan berbeda masing-masing di worktree yang terpisah
Pada level tinggi, orchestrator mengubah backlog, issue tracker, jadwal, dan queue menjadi pekerjaan berkelanjutan, dan manusia hanya turun tangan saat gagal, dalam bentuk management by exception
Contoh fitur dan produk terkait adalah sebagai berikut
- Claude Code: /plan, /goal, /loop, /background, /batch, /code-review, /security-review, subagen, hook, checkpoint, cara delegasi dan pengelolaan agen, sesi latar belakang, pola tim agen, argumen /schedule
- Codex: thread lokal dan cloud, Goal mode, worktree, Automations, subagen, panel review, GitHub code review, hook, sandbox, Auto-review, rerun

Tiga era dan enam level

Jika tangga dibaca dari bawah ke atas, kesannya agency dan orchestration naik bersamaan
Enam level itu terbagi menjadi tiga era
- Era ketika manusia berada di kursi pengemudi dan agen hanya membantu sambil menunggu operasi dari manusia
- Era ketika agen menangani tugas atau tujuan terbatas tetapi manusia tetap mengarahkan dan memverifikasi
- Era orkestrasi ketika sistem membagikan pekerjaan ke banyak agen dan manusia terutama turun tangan saat ada masalah
Dalam engineering nyata, wajar bila seseorang berpindah-pindah antarlevel selama satu hari kerja

Level 0: Assist

Agen biasanya memberi usulan yang baik, kadang sempurna, tetapi keputusan untuk mengeksekusi selalu ada pada manusia
Contohnya adalah autocomplete, saran edit inline, atau mendiskusikan perubahan yang belum dimiliki siapa pun di chat
Cocok untuk kesalahan yang mahal, perubahan yang sangat kecil, atau pekerjaan ketika penilaian masih sedang dibentuk
Verifikasi sebagian besar terjadi secara lokal

Level 1: Supervised action

Agen mengedit atau menjalankan perintah atas nama pengguna, tetapi meminta izin manusia sebelum eksekusi penting
Ini mendekati postur dasar yang dipakai kebanyakan orang
Dapat dilakukan di sandbox lokal dengan persetujuan sebelum perubahan diterapkan, atau dalam sesi interaktif
Tiap persetujuan berfungsi sebagai verifikasi independen untuk memastikan perubahan itu aman diterapkan
Mode kegagalan utama adalah kelelahan persetujuan
- Apa pun yang disetujui bisa terasa serupa
- Responsnya bisa berupa menelusuri diff secara kasar, mengikuti heuristik, meminta orang lain mengecek, atau membiarkan agen menanggung tanggung jawab
Codex Auto-review menangani masalah ini dengan mendelegasikan persetujuan akhir pada kondisi batas kepada agen reviewer terpisah

Level 2: Scoped task delegation

Ini adalah tahap menyerahkan tugas terbatas kepada agen
Tugas harus memiliki tujuan yang jelas, batasan, dan definisi pekerjaan selesai yang operasional
Manusia tetap berada dekat dan bisa menghentikan, tetapi biasanya tidak terlibat langsung
Ini diperlakukan sebagai level yang dekat dengan pusat software engineering
Verifikasi bergeser dari pengecekan langsung oleh manusia ke bukti yang dapat dihasilkan agen
- tes otomatis yang lulus
- tipe yang sesuai
- saran lint
- screenshot
- langkah reproduksi
- sumber berbasis contoh

Level 3: Goal-driven autonomy

Agen melakukan apa yang diperlukan untuk mencapai tujuan sampai kondisi tertentu terpenuhi
Dalam mode prompt, prompt itu sendiri menjadi tujuannya
- Contoh: “Bisakah time-to-interactive halaman ini diturunkan hingga di bawah 1 detik?”
Di Codex, ini sesuai dengan Goal mode, di mana agen mengulang langkah plan -> act -> test -> review lalu berhenti saat kriteria sukses tak lagi bisa dipenuhi
Di Claude Code, ini sesuai dengan perintah /goal, /loop, dan /schedule
Agar level ini berguna, kondisi berhenti harus terukur dengan cara yang bisa diotomatisasi
Tujuan samar seperti “meningkatkan pengalaman pengguna secara keseluruhan” atau “membuat codebase lebih mudah diuji” tidak cocok
Tujuan yang lebih cocok harus spesifik, terukur, dan dapat diotomatisasi
- menemukan bug produksi yang lolos dari analisis statis
- mengurangi waktu muat
- memastikan build TypeScript yang strict tanpa any eksplisit
- mengklasifikasikan seluruh dependensi agar hanya tersisa dependensi yang dapat dipahami dan lolos tes
Untuk menemukan bug produksi, agen harus berada di lingkungan yang mirip produksi

Level 4: Parallel delegation

Ini adalah tahap ketika banyak agen bekerja secara paralel
Masing-masing agen menangani potongan tugas yang terpisah
Bottleneck terbesar adalah dekomposisi, yaitu memutuskan potongan mana yang akan didelegasikan
Fitur pendukungnya meliputi subagen, sesi latar belakang, /batch, worktree, dan tim agen
Mode kegagalan utamanya adalah paralelisme palsu
- Jika banyak agen menangani potongan yang tumpang tindih secara bersamaan, hasilnya bisa berupa merge conflict dan keputusan duplikat alih-alih lebih banyak pekerjaan selesai
Agar berjalan baik, agen harus saling terisolasi
- Masing-masing harus punya file dan state yang dimiliki sendiri
- Masing-masing juga harus punya queue review sendiri
Tiap agen menimbulkan biaya token, dan itu sebanding dengan jumlah agen yang berjalan bersamaan
Dari sisi manusia, setelah jumlah tertentu, biaya marginal menambah agen meningkat karena pajak orkestrasi

Level 5: Managed-by-exception orchestration

Manusia mendefinisikan arti keberhasilan dan kebijakan yang akan diterapkan, lalu manager agent bangun berdasarkan trigger dan mendistribusikan pekerjaan
Contoh trigger adalah issue baru, tugas baru, atau jam
Manager agent men-deploy worker agent, memantau progres, memverifikasi output, dan mencoba ulang saat gagal
Jika syarat tertentu terpenuhi, ia melakukan eskalasi ke agen yang lebih mampu atau ke manusia, lalu menggabungkan hasil dan mengembalikan artefak kerja seperti PR beserta bukti ke sistem eksternal
Tahap ini dianalogikan sebagai pabrik
- Inputnya adalah issue tracker atau backlog
- Outputnya adalah banyak issue atau bug yang terselesaikan
Agen bekerja dalam lingkungan terisolasi dengan batas yang memadai dan jalur keluar bila diperlukan
Apa yang harus dilakukan pabrik ini ditentukan oleh sistem operasi yang didefinisikan manager agent
OpenAI mengusulkan spec untuk Symphony dengan papan Linear sebagai pusatnya
- Tiap issue memiliki workspace agen sendiri
- Agen memeriksa apakah ia terus membuat progres menuju tujuan yang didefinisikan di file spec dalam workspace-nya
Garis depan orkestrasi adalah membangun pabrik agen berkelanjutan dengan ratusan atau ribuan agen yang berjalan
Pada tahap ini verifikasi independen menjadi makin penting
- pemisahan implementer dan reviewer
- pemisahan pelaksana tes dan QA
- pemisahan pemeriksaan keamanan
- pemisahan process gate untuk penerimaan

Risiko dan tingkat kemudahan rollback menentukan batas atas otonomi

Dalam riset terkait Claude Code dari Anthropic, pada sebagian tugas tersulit Claude Code mengajukan pertanyaan klarifikasi secara eksplisit lebih dari dua kali lebih sering dibanding pengguna menghentikannya
Pengguna berpengalaman, yaitu pengguna dengan sekitar 750 sesi, cenderung lebih sering memakai auto-approve dan interupsi serta mengawasi progres dibanding pengguna dengan kurang dari 50 sesi
Analisis Anthropic yang lebih luas mencakup sekitar 400 ribu sesi dari sekitar 235 ribu pengguna dari Oktober 2025 hingga April 2026
Di tiap sesi, dapat diidentifikasi keputusan seperti jumlah tindakan yang diminta pengguna per prompt, item yang di-auto-approve, dan frekuensi interupsi
Manusia membuat sekitar 70% keputusan perencanaan, sementara Claude melakukan sekitar 80% eksekusi
Otonomi tinggi bukan berarti mengeluarkan manusia dari loop, melainkan berpindah dari manusia yang melakukan tiap langkah ke manusia yang menentukan arah berikutnya
Untuk menilai apakah sistem AI besar beroperasi dengan otonomi tinggi, dibutuhkan tiga pertanyaan
- Seberapa cepat kita bisa tahu apa yang sedang salah
- Seberapa bersih kita bisa membatalkan apa yang sedang dilakukan
- Apa yang membuktikan bahwa yang sedang dilakukan itu benar
Jika jawabannya “tidak bisa cepat tahu, sulit dibatalkan, dan harus percaya pada ringkasan”, maka itu bukan otonomi tinggi

Hal-hal yang harus masuk ke kontrak sebelum agen dijalankan

Sebelum setiap eksekusi agen, diperlukan kontrak yang mendefinisikan apa yang hendak dilakukan
Kontrak harus mencakup hal-hal berikut
- Tujuan: hasil yang ingin dicapai, bukan aktivitas atau tekniknya
- Cakupan: domain kerja dan teknik yang diizinkan
- Non-tujuan: hal-hal yang tidak termasuk dalam tujuan
- Alat dan wewenang: cara agen berinteraksi dengan dunia luar
- Kondisi berhenti: kapan harus berhenti, sebisa mungkin berupa variabel terukur
- Bukti: tes, screenshot, log, record database, dan lain-lain yang memungkinkan verifikasi penyelesaian secara independen
- Eskalasi: dalam situasi apa siapa yang turun tangan, dan siapa yang menjalankan agen
- Anggaran: batas waktu, usaha, dan token
Token adalah anggaran untuk model AI besar, dan juga dapat mencakup batas jumlah percobaan dan tingkat paralelisme

Metrik membuat otonomi sedikit lebih dapat dipercaya

Menentukan metrik setelah kejadian saja mungkin tidak cukup
Metrik bisa ditempatkan lebih dulu dalam dokumen ringkas dan membuat otonomi lebih dapat dipercaya
Contoh metrik yang bisa dilacak per level otonomi adalah sebagai berikut
- rata-rata waktu antar intervensi
- durasi terlama eksekusi tanpa pengawasan untuk pekerjaan yang diterima
- rasio tindakan yang dijalankan di sandbox terhadap tindakan yang dieskalasikan
- rasio tindakan yang di-auto-approve terhadap tindakan yang ditolak
- rata-rata jumlah tindakan agen per satu instruksi manusia
- tingkat permintaan klarifikasi
- tingkat permintaan interupsi
- waktu review per perubahan yang diterima
- tingkat rework per level kepercayaan
- tingkat defect leakage per level kepercayaan
- biaya token per perubahan yang diterima
Satu agen yang terus sibuk dengan pekerjaan yang diserahkan manusia lebih mendekati Level 4 dengan dashboard, sedangkan agen konservatif yang memiliki intake otomatis, retry, dan tidak maju tanpa bukti yang cukup lebih mendekati Level 5 dengan gate nyata

Kesiapan dan pemilihan level otonomi

Tugas harus diklasifikasikan berdasarkan risiko dan tingkat kemudahan rollback
Otonomi harus diterapkan secara konservatif, dan hanya dinaikkan ketika bukti yang mendukung level lebih tinggi telah terkumpul
Refactoring payment engine dengan tes kuat, agen reviewer, dan jalur rollback yang bersih dapat mendukung otonomi lebih tinggi daripada pekerjaan otomatisasi dokumen yang tidak memiliki ground truth
Level otonomi harus mengikuti proses verifikasi, bukan nama tugasnya

Empat antipola otonomi

Autonomy as status
- Rating otonomi agen berfungsi seperti lencana status yang tak bermakna
- Otonomi tinggi diperlakukan sebagai bukti kemampuan, bukan keselamatan, sehingga agen dijalankan pada level yang tidak didukung verifikasi
- Orang yang memilih level otonomi yang tepat dan tidak melewati batas harus dipuji dan diberi penghargaan
Permission laundering
- Karena kelelahan persetujuan, agen dan alat AI diberi hak akses yang lebih luas dari yang diperlukan
- Batas seperti profil sandbox, root tulis dengan cakupan terbatas, daftar perintah yang diizinkan, hook, dan Auto-review harus diperkuat
Summary substitution
- Ringkasan pekerjaan agen menggantikan review
- Paket bukti seperti review manual harus ikut dibundel
- Ini bisa mencakup diff, tes, log, screenshot, temuan reviewer, risiko, dan celah
Fleet cosplay
- Puluhan agen dijalankan paralel, tetapi manusia tetap terus mengoordinasikan semua dependensi secara manual
- Shared state, aturan kepemilikan, dan pelacakan dependensi yang lebih baik mengurangi kebutuhan koordinasi manual
- Batas WIP yang lebih kecil dapat mendorong fokus pada pengodean dan pendokumentasian tahap koordinasi, yang kemudian bisa berujung pada otomatisasi orkestrasi

Cara naik level dengan aman

Disarankan latihan kalibrasi dengan meninjau 10 pekerjaan terbaru yang dibantu agen
- level otonomi tiap pekerjaan
- risiko
- tingkat kemudahan rollback
- bukti yang dihasilkan untuk memenuhi kebutuhan verifikasi
- waktu review
- apakah terjadi rework
- apakah level otonomi yang sama masih cocok di waktu berikutnya
Naiklah satu sumbu pada satu waktu
Titik mulanya adalah satu supervised agent yang menjalankan satu tugas terbatas dan menghasilkan bukti keberhasilan yang dapat dipertahankan
Setelah itu, perluas secara bertahap ke tiga arah
- memparalelkan pekerjaan eksplorasi yang berpusat pada pembacaan
- menambahkan agen penulis di worktree terpisah dengan aturan kepemilikan file yang terbatas
- menambahkan otomasi berulang, lalu orkestrasi yang digerakkan agen berbasis issue atau suara dan sejenisnya
Setiap kenaikan level memerlukan pengaman baru untuk menghadapi mode kegagalan baru
Mode kegagalannya meliputi
- eksekusi agen tunggal yang panjang: drift, korupsi konteks, komunikasi yang terlewat, penyimpangan tujuan
- pekerjaan latar belakang: asumsi usang, handoff yang lemah
- pekerjaan paralel berlebihan: merge conflict, keputusan duplikat
- pekerjaan berulang berlebihan: pengeluaran token yang diam-diam, prompt usang
- managed-by-exception: queue review panjang, kelelahan notifikasi
Yang dibutuhkan bukanlah mempercayai lebih keras, melainkan mempersempit cakupan, mendapatkan bukti yang lebih baik, membuat jalur rollback yang lebih murah, memperkuat gate, dan memperjelas aturan kepemilikan

Penggunaan yang cocok per level

Level 0 paling cocok untuk pekerjaan yang halus dan situasi ketika penilaian masih sedang dibentuk
Level 1 cocok untuk sebagian besar eksplorasi yang dekat dengan batas yang sudah dipahami dengan baik
Level 2 cocok untuk sebagian besar tugas terbatas yang mungkin memiliki dependensi tak diketahui dan masalah tak terduga
Level 3 cocok jika kondisi keberhasilan bisa dinyatakan dengan cukup jelas
Level 4 cocok ketika pekerjaan bisa dibagi dengan bersih berdasarkan kondisi keberhasilan
Level 5 cocok setelah koordinasi dan komunikasi yang diperlukan di antara banyak kondisi keberhasilan telah sepenuhnya dienkodekan

Verifikasi tetap menjadi bottleneck

Terlepas dari tingkat kepercayaan dan level alat saat ini, sikap tim engineering yang matang saat bekerja dengan agen AI adalah calibrated autonomy
Dalam waktu dekat, perlu dirancang loop yang tahu kapan harus bekerja, kapan harus memverifikasi, dan kapan harus bertanya
Kemampuan engineer tetap terletak pada memilih level otonomi yang tepat, serta membangun pola dan bukti yang bisa dipertahankan untuk menahan sisi gelapnya

Tingkat Otonomi Agen

Rekayasa agentic bergerak dari penulisan prompt ke desain operasional

Melihat otonomi lewat dua sumbu, bukan satu tangga tunggal

Makna agency dan orchestration

Tiga era dan enam level

Level 0: Assist

Level 1: Supervised action

Level 2: Scoped task delegation

Level 3: Goal-driven autonomy

Level 4: Parallel delegation

Level 5: Managed-by-exception orchestration

Risiko dan tingkat kemudahan rollback menentukan batas atas otonomi

Hal-hal yang harus masuk ke kontrak sebelum agen dijalankan

Metrik membuat otonomi sedikit lebih dapat dipercaya

Kesiapan dan pemilihan level otonomi

Empat antipola otonomi

Autonomy as status

Permission laundering

Summary substitution

Fleet cosplay

Cara naik level dengan aman

Penggunaan yang cocok per level

Verifikasi tetap menjadi bottleneck

Bacaan terkait

Belum ada komentar.