37 poin oleh GN⁺ 2026-02-23 | 4 komentar | Bagikan ke WhatsApp
  • Kriteria utama dalam memilih coding agent bergeser dari performa model itu sendiri ke waktu yang tersedia bagi pengguna dan durasi eksekusi otonom, dengan Claude Code dan Codex digunakan secara paralel sesuai situasi
  • Opus unggul dalam manajemen context window dan penggunaan alat, serta cocok untuk eksplorasi dan perencanaan cepat karena dapat menjalankan beberapa sub-agent sekaligus
  • Codex melampaui Opus dalam akurasi kode, tetapi memiliki kelemahan berupa delegasi kerja antar context window yang kurang baik sehingga pemrosesannya lebih lambat
  • Melalui otomatisasi skill, dibangun loop bertahap perencanaan → implementasi → review → perbaikan bug, dan pendekatan mengotomatiskan pekerjaan manual yang berulang secara bertahap terbukti lebih efektif daripada merancang semuanya sejak awal
  • Pada akhirnya masa depan mengarah ke agent yang bekerja otonom 24/7, tetapi batas context window dan ketahanan terhadap prompt injection masih menjadi hambatan utama

Latar belakang

  • Pernah mengerjakan versi web Codex, lalu keluar dari OpenAI pada Juli 2025
  • Menulis artikel ini untuk merangkum strategi detail pemanfaatan coding agent setelah YC Lightcone Podcast
  • Kriteria pemilihan agent sedang bergeser dari performa model ke durasi eksekusi otonom dan tingkat pentingnya pekerjaan
  • Berlangganan Claude Max, ChatGPT Pro, dan Cursor Pro+, dengan efisiensi biaya yang tinggi dibanding peningkatan produktivitas

Prinsip inti: memahami konteks

  • Untuk menggunakan coding agent dengan baik, context harus benar-benar dipahami
  • Sehebat apa pun agent, pada akhirnya ia tetap melakukan next token prediction, dan semua token harus masuk ke dalam context window
  • Prinsip utama yang diturunkan dari sini:
    • Masalah harus dipecah ke ukuran yang sesuai dengan context window; masalah yang terlalu besar akan memakan waktu lebih lama dan hasilnya juga lebih buruk
    • Compaction adalah teknik yang lossy, sehingga agent harus memutuskan informasi mana yang disertakan dan mana yang dihilangkan; makin sering compaction dilakukan, performa cenderung menurun
    • Dengan mengeksternalisasi konteks ke filesystem lewat dokumen rencana dan semacamnya, agent dapat membaca dan mengingat secara selektif tanpa memenuhi seluruh context percakapan
    • Penting untuk tetap berada di 'setengah pintar' dari context window; karena pelatihan lebih efektif pada data konteks yang lebih pendek, hasil cenderung lebih baik saat jendela tidak terlalu penuh — Dex Horthy menyebutnya sebagai tetap berada di luar 'dumb zone'
    • Jika agent melewatkan file atau package yang relevan, ia bisa bergerak ke arah yang tak terduga; 'progressive disclosure' pada struktur codebase dan arsitektur membantu — OpenAI pernah menerbitkan posting blog tentang cara mereka menyusun banyak file Markdown
  • Performa dan kecepatan model tidak hanya ditentukan oleh kemampuan murni model itu sendiri, tetapi juga oleh kemampuan mengelola banyak context window serta mendelegasikan ke sub-agent/tim

Opus: manajemen konteks, penggunaan alat, dan nuansa manusiawi

  • Claude Code digunakan sebagai alat utama untuk perencanaan, orkestrasi terminal, dan pengelolaan pekerjaan git/GitHub
  • Opus dilatih untuk bekerja sangat efisien melintasi beberapa context window, sehingga saat memakai Claude Code, kecepatannya terasa lebih tinggi dibanding Codex
  • Sering terlihat Opus menjalankan beberapa sub-agent sekaligus, seperti pemanggilan Explore atau Task
    • Tool Explore menggunakan Haiku, sehingga dapat memproses token dalam jumlah besar dengan cepat dan meneruskan context yang relevan ke Opus
  • Pelatihan penggunaan alat lokal seperti gh, git, dan berbagai server MCP juga sangat baik
    • Ekstensi /chrome juga bisa dipakai untuk memverifikasi bug, tetapi dapat lambat dan kurang stabil
  • Model izin Claude Code lebih mudah dipahami dibanding Codex — model Codex cenderung menulis skrip perintah di bash sehingga whitelist tiap tool CLI menjadi lebih sulit
  • Keunggulan UX kecil di Claude Code: judul terminal diperbarui sesuai pekerjaan, PR saat ini ditampilkan di status bar, serta ada pesan status kecil
  • Opus lebih unggul daripada Codex dalam menghasilkan deskripsi PR yang mudah dipahami manusia dan diagram arsitektur yang detail
  • Saat meminta penjelasan struktur kode, biasanya yang dipakai adalah Claude Code
  • Dalam perencanaan, Opus terasa lebih 'kreatif', misalnya menyarankan hal yang tidak disebut pengguna atau menunjukkan area yang ambigu

Codex: akurasi kode yang sangat unggul

  • Area utama tempat Codex menonjol adalah correctness kode, dan banyak pengembang lain yang intens memakai model juga sependapat
  • Saat dijalankan dengan GPT-5.3-Codex-xhigh atau high, kode dari Codex memiliki bug yang jauh lebih sedikit
  • Contoh kesalahan yang sering dibuat Opus:
    • Komponen React lolos unit test tetapi lupa ditambahkan ke <App> tingkat teratas
    • Gagal mendeteksi error off-by-one yang jelas
    • dangling references atau race condition yang halus
  • Dulu perbedaan dua model ini dianggap nyaris bisa diabaikan, tetapi setelah melihat cukup banyak PR melalui review otomatis Codex dan Cursor Bugbot, disimpulkan bahwa kualitas kode model OpenAI memang lebih unggul
    • Jika ingin melakukan uji A/B sendiri, checkout branch lalu bandingkan /code-review di Claude Code dengan /review di Codex
  • Namun Codex itu lambat — penyebab utamanya adalah kurangnya delegasi kerja antar context window, dan latensi antar token juga terasa lebih tinggi
    • Dukungan sub-agent eksperimental (toggle /experimental) memang berfungsi, tetapi belum semulus Claude dan paralelismenya juga masih kurang
  • Hasil akhirnya adalah pola memulai dengan Claude Code, membiarkannya tetap terbuka, lalu beralih ke Codex saat masuk tahap coding sesungguhnya

Tool dan setup yang berguna

  • Saat ini sedang mengerjakan greenfield codebase yang jauh lebih kecil dan lebih efisien token dibanding codebase produksi
  • Struktur repo: semua repo memiliki folder plans/ untuk mengelola dokumen rencana bernomor, layanan dipisah lewat folder apps/, TypeScript monorepo dikelola dengan turborepo, dan bun dipakai untuk instalasi cepat
  • Ghostty: terminal buatan Mitchellh yang cepat, native, dan terus ditingkatkan — dulu sempat menjalankan banyak instance Claude/Codex dengan tmux, tetapi sekarang lebih sering memakai beberapa pane di tab terminal yang sama
  • Next.js on Vercel, API di Cloudflare Durable Objects: struktur yang mempartisi database lebih dulu, membangunkannya on-demand, dan lebih minim kekhawatiran soal concurrent writes — cocok dari sudut pandang infrastruktur di era agent yang menangani potongan data kecil
    • Cloudflare juga sedang berkembang ke arah menggabungkan komputasi dan penyimpanan kecil yang berkolokasi lewat library cloudflare/actors
  • Worktrees: karena kode ringan, worktree paralel dimanfaatkan; di masing-masing bisa dilakukan verifikasi lokal lewat bun installbun run dev — dipakai skill worktree yang menyalin rencana, environment variable, dan update terkait lalu memulai branch baru
    • Sebelum era coding agent, yang dipakai terutama hanya branch, tetapi kombinasi worktree dan Claude Code ternyata sangat berguna
  • Plan, Implement, Review: hampir selalu model diminta memulai dari rencana — 1) mengeksternalisasi konteks melampaui satu context window 2) memudahkan review atau tanya jawab tentang apa yang sudah dilakukan — jika agent berhenti, rencana dapat dilanjutkan dari context window baru
  • Preview deploys: setiap branch mendapat deployment Web + API baru, sehingga cocok untuk eksekusi paralel dan pengujian cepat — sulit membayangkan bekerja tanpa fitur ini
  • Cursor Bugbot dan Codex Code Review: dipakai untuk memahami kode di level arsitektur dan melakukan spot check, tetapi semakin jarang membaca setiap baris dari setiap PR — agent lebih unggul dalam menemukan bug halus
    • Dulu Claude Code, Cursor Bugbot, dan Codex dipakai bersamaan, tetapi karena Claude Code tidak banyak menangkap isu nyata, Cursor menjadi opsi default, dan Codex juga dinilai memberi hasil bagus

Skills: inti otomatisasi

  • Berbagai skill dan AGENTS.md/CLAUDE.md bersama didefinisikan di repo bernama claudefiles
  • Aturan menambah skill: tidak ditambahkan terburu-buru; hanya ditambahkan setelah diulang beberapa kali dan workflow sudah stabil
  • AGENTS/CLAUDE.md berguna untuk mengarahkan model secara umum, sedangkan skill punya dua tujuan:
    1. Chaining workflow dan otomatisasi — perencanaan → implementasi bertahap → review dijadikan skill terpisah, lalu dibuat meta-skill untuk menjalankannya berurutan
    2. Membagi context window — saat memanggil skill di Claude Code, context: fork bisa diatur agar berjalan di context window baru, memisahkan 'master orchestrator' dan sub-agent
  • Skill sangat efisien terhadap context, karena berbeda dengan pemanggilan MCP yang bisa memakan ribuan token, skill biasanya hanya ~50-100 token

Proses evolusi otomatisasi skill

  • Pada awalnya tertarik pada ide skill marketplace (memasang desain frontend, pemeriksaan keamanan, review arsitektur, dsb.), tetapi setelah bekerja langsung, kebanyakan skill buatan orang lain akhirnya ditinggalkan
  • Sebagai gantinya, pekerjaan manual dikerjakan dulu baru kemudian dipikirkan cara mengotomatiskannya
  • Tahapan evolusi skill:
    • /commit: alih-alih berkali-kali menginstruksikan model untuk commit dan push dengan berbagai cara, semuanya disatukan ke satu skill — diambil langsung dari Claude Code
    • /worktree: agar agent bekerja di worktree terpisah, dibuat worktree baru berdasarkan nomor rencana (misalnya 00034-add-user-auth)
    • /implement: pekerjaan berulang berupa mengeksekusi satu tahap rencana lalu menjalankan /commit disatukan dalam satu skill
    • /implement-all: menghubungkan path worktree saat ini ke nomor rencana untuk mengimplementasikan semua tahap secara otomatis — saat dijalankan malam hari, /ralph-loop terus berjalan sampai semua tahap selesai, dan /codex-review lokal membuat proses codex --review
    • /address-bugs: mencari komentar Cursor + Codex sejak commit terakhir lewat GitHub API untuk memverifikasi dan mencoba memperbaiki bug
    • /pr-pass: dijalankan saat /implement-all selesai, lalu 1) push ke remote 2) menunggu semua CI lolos 3) menjalankan /address-bugs, dan bila perlu mengulang langkah 1
    • /focus: memeriksa direktori plans, PR yang belum selesai, dan worktree untuk menyegarkan ingatan dan membantu pelacakan pekerjaan
  • Jika proses ini dicoba dibuat sejak awal, kemungkinan besar tidak akan berhasil; kuncinya adalah membangunnya secara bertahap seiring waktu sambil menemukan area kecil yang bisa diotomatisasi

Tool lain

  • Baru-baru ini mencoba Codex App dan terkesan positif pada detail serta sentuhan kecilnya — namun belum beralih total karena masih lebih menyukai fleksibilitas tool CLI
  • Juga mencoba Cowork, tetapi sulit dibuat berjalan dengan baik; di kedua kasus, model sandboxing membuat perbedaan besar
  • Kadang masih memakai antarmuka web untuk pekerjaan asinkron, tetapi makin bergantung pada CLI — berbeda dengan 6 bulan lalu saat lebih banyak memakai Cursor serta agent/ekstensi bawaannya
  • Sedang menggunakan pencil.dev untuk pekerjaan UI frontend — model deployment yang melakukan shell-out ke Claude Code lokal agar langganan yang ada bisa dipakai ulang terasa menarik
  • Mulai merasa perlu issue tracker yang lebih terstruktur; Dex dari David Cramer dan beads dari Steve Yegge tampak menjanjikan, tetapi masih terasa lebih rumit dari yang dibutuhkan saat ini
  • Otomatisasi e2e MCP seperti Playwright belum dipakai saat ini

Saran untuk lab

  • Feedback untuk Anthropic

    • Model: Opus terasa manusiawi, unggul dalam penggunaan tool engineering, pembagian konteks, dan menyarankan hal-hal yang mungkin dilupakan pengguna, tetapi akurasi kodenya kurang — diharapkan ada mode 'Opus Strict' yang memperkuat RL pada model dasar untuk meningkatkan performa
      • Memulai dengan Opus, tetapi untuk menulis kode akan memilih Codex; jika ada batas anggaran, yang dipilih adalah Codex
    • Product harness: nyaris tidak ada yang perlu dikritik, dan ide Boris serta Cat dinilai sangat bagus
      • Meminta adopsi standar agent skills — pekerjaan symlink direktori antar CLI terasa merepotkan
      • Meminta format output --stream-json dibuka — tertarik menjalankan Claude Code di sandbox atas nama pengguna, tetapi ada kekhawatiran format berubah dan pengaturan path lebih merepotkan dibanding tool CLI lain seperti Codex, Cursor, dan Gemini
  • Feedback untuk OpenAI

    • Model: prioritas peningkatan tertinggi adalah pembagian antar context window dan delegasi sub-agent — konsep “melakukan lebih dari yang diminta” yang dicapai Opus dalam perencanaan juga akan berguna
    • Feedback detail untuk product harness:
      • Model sandboxing dibanding Claude Code sulit dipahami — karena model cenderung mencoba membuat skrip, permintaan persetujuan jadi lebih banyak, dan ini menimbulkan kekhawatiran saat menjalankan mode --yolo
      • Meminta agar seperti Claude Code ada panduan pengguna bawaan di CLI — sehingga bisa ditanya soal lokasi skill, field yang didukung, pengaturan model sandboxing, dan sebagainya
      • Meminta /review diubah menjadi skill umum alih-alih perintah terpaket — agar model dapat memanggilnya secara dinamis
      • Meminta judul tab terminal berubah sesuai pekerjaan saat berjalan — puluhan tab codex mudah membingungkan
      • Perlu pelatihan khusus untuk deskripsi PR dan deskripsi commit — gaya Codex yang ringkas itu bagus, tetapi penjelasannya perlu diperluas
      • Meminta dukungan context: fork dalam definisi skill
      • Memperbaiki agar tautan yang terpotong ke baris berikutnya di pane tetap bisa diklik
      • Meminta status bar bagian bawah menampilkan nama worktree/PR/branch saat ini

Prospek ke depan

  • Mengutip tulisan Steve Yegge Gas Town — argumennya adalah token harus selalu dimaksimalkan penggunaannya, pool pekerja berjalan 24/7, dan kita harus mengharapkan banyak rencana dibuat lalu dibuang
    • Terlepas dari apakah abstraksinya sepenuhnya tepat atau tidak, arahnya dinilai sangat benar
  • Masa depan idealnya adalah laptop atau cloud sandbox yang terus memproses ide di background, sementara pengguna berperan mengarahkan, melakukan riset, atau me-review hasil
    • Bekerja dengan coding agent terasa mirip peran engineering manager, tetapi tanpa harus memikirkan motivasi atau kepribadian agent
  • Saat ini kita sudah cukup dekat ke masa depan itu — di Twitter memang sering dibesar-besarkan, tetapi dalam praktiknya sudah ada rutinitas memulai 3-4 pekerjaan di Codex sebelum tidur lalu me-review hasilnya pada pagi hari
    • Namun, masih belum sampai tahap menjalankan agent 24/7
  • Ada dua hambatan yang menghalangi lompatan lebih besar:
    1. Ukuran/orkestrasi context window — agent tidak bisa terus-menerus melakukan kompresi/daur ulang tanpa akhir di context window yang sama; dibutuhkan harness atau mekanisme delegasi yang lebih cerdas
    2. Ketahanan terhadap prompt injection — agent dapat meminta persetujuan hanya dalam hitungan menit, sehingga mode --yolo belum bisa dipercaya, walaupun ada subset izin/domain yang masih dapat diterima
  • Untuk masalah pertama, Cursor sedang mendorong batas agent swarm lintas banyak context window, sedangkan masalah kedua merupakan area riset yang aktif
    • Menjalankan di sandbox adalah solusi sementara terbaik saat ini, tetapi konfigurasinya masih merepotkan, dan jika agent memiliki akses ke internet terbuka sekaligus data istimewa, ia rentan terhadap 'Lethal Trifecta' yang disebut Simon Willison
  • Sebagai solo engineer, yang kini sudah menjadi bottleneck adalah ide yang tepat, dan ke depan ide, arsitektur, serta sequencing proyek akan makin menjadi faktor pembatas dalam membangun produk hebat

4 komentar

 
yangeok 2026-02-23

Diagram arsitekturnya juga..?

 
wegaia 2026-02-24

Kalau Codex saja punya fitur sub-agent, sepertinya saya bakal pindah.

Tapi entah memang tidak tertarik atau bagaimana..

 
tested 2026-02-24

https://developers.openai.com/codex/multi-agent
Masih dalam tahap eksperimental, tetapi sepertinya memang sedang berjalan.

 
kgcrom 2026-02-24

Di codex cli, jika Anda memasukkan perintah
/experimental, fitur eksperimental Multi-agents tersedia.
› [x] Multi-agents Ask Codex to spawn multiple agents to parallelize the work and win in efficiency.

Saya tidak yakin apakah ini sejalan dengan sub-agent yang Anda sebutkan, tetapi coba cek sekali.